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内 容 提 要 











本 书 着 眼 于 处 理 时 间 序 列 数据 的 深度 学 习 算法 ， 通 过 基于 Python 语言 的 库 TensorFlow 和 Keras 


来 学 习 神经 网 





























络 、 深 度 学 习 的 理论 和 实现 。 全 书 共 六 章 ， 前 两 章 讲 解 了 学 习 神 经 网 络 所 需 的 数学 知 























识 和 了 Python 基础 知识 ; 中 间 两 章 讲 解 了 神经 网 络 的 基本 算法 以 及 深度 学 习 的 基础 知识 和 应 用 ; 最 后 
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本 书 内 容 通 俗 易 懂 ， 图片 、 公 式 、 代 码 和 正文 讲解 相得益彰 ， 0 即便 是 没有 











了 专门 用 于 处 理 时 间 序 列 数据 的 循环 神经 网 络 ( RNN )。 
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储 确 ， 但 是 应 用 本 书 内 
































` 本 书记 载 的 内 容 仅 以 提供 信息 为 目的 。 虽然 在 本 书 的 制作 过 程 中 我 们 已 力求 内 容 
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基于 个 人 的 责任 和 判断 使 用 本 书 
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` 本 书 中 记载 的 文章 、 产 品名 称 、URL 等 都 是 2017 年 4 月 撰写 时 的 信息 。 这 些 信 息 有 可 能 发 生变 更 ， 敬 请 


知悉 。 





- 本 书 中 出 现 的 公司 名 和 商品 名 等 一 般 为 各 公司 的 商标 或 注册 商标 。 正 文中 一 概 省 略 了 @、@、TM 等 标识 。 
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了 中 


随 着 深度 学 习 的 知名 度 的 提高 ， 针 对 它 的 研究 和 它 在 商业 上 的 应 用 也 越 来 越 多 。 大 家 
有 没有 觉得 “人 工 智 能 ”这 个 词 几 乎 每 天 都 会 出 现在 报纸 和 电视 上 呢 ? 实 际 上 ， 与 2012 年 
刚 成 为 话题 时 相 比 ,“ 深 度 学 习 ” 已 不 再 那么 遥远 和 深奥 。 如 今 ， 轻 松 实现 神经 网 络 〈 深度 
学 习 模 型 ) 的 库 被 接二连三 地 开发 出 来 并 且 开 源 ， 个 人 也 能 够 尝试 简单 地 实现 深度 学 习 了 。 
但 是 ， 对 于 深度 学 习 ， 我 们 依然 会 听 到 下 面 这 样 的 声音 。 




















@ 虽然 感 兴趣 ,但 是 公式 和 理论 看 上 去 很 难 ， 让 人 敬而远之 
@ 库 太 多 ,不 知道 从 何 开始 
@ 虽然 稍微 接触 过 一 些 库 , 但 是 并 不 了 解 其 内 部 发 生 了 什么 








因此 ， 为 了 证 不 具备 相关 基础 知识 的 读者 也 能 学 习 下 去 ， 本 书 将 从 零 开始 ， 详 细 地 讲解 深 
度 学 习 、 神 经 网 络 的 理论 和 实现 。 本 书 使 用 的 编程 语言 是 Python (3.x 版 本 六 一 Python 可 
以 说 是 在 深度 学 习 实 现 上 最 热门 的 语言 了 ， 使 用 的 深度 学 习 库 则 是 TensorFlow ( 1.0 版 本 ) 
和 Keras (2.0 版 本 )， 二 者 都 是 目前 十 分 受 欢 迎 的 库 。 

男 外 ， 本 书 还 有 一 个 特点 ， 那 就 是 重点 介绍 了 处 理 时 间 序 列 数据 的 深度 学 习 算 法 。 深 
度 学 习 非 常 适用 于 图 像 识 别 ， 它 成 名 的 一 个 契机 就 是 图 像 识 别 竞赛 ILSVRC， 很 多 著名 的 
研究 或 应 用 的 成 果 也 都 出 现在 图 像 识别 领域 。 不 过 ， 深 度 学 习 的 研究 在 图 像 识别 以 外 的 领 
域 也 很 活跃 ， 特 别 是 在 以 自然 语言 处 理 为 代表 的 时 间 序 列 数 据 分 析 上 也 取得 了 很 大 的 进展 。 
针对 处 理 时 间 序 列 数据 的 模型 ， 本 书 也 进行 了 详细 的 讲解 ， 从 基础 知识 到 实际 应 用 ， 从 理 
论 到 实现 。 相 信 本 书 会 对 以 下 读者 有 所 帮助 。 





























@ 稍微 知道 一 点 深度 学 习 的 知识 ， 想 要 进一步 加 深 理 解 的 读者 
@ 除了 图 像 识别 ,还 想 学 习 时 间 序列 数据 分 析 模 型 的 读者 
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本 书 结构 

本 书 共 有 6 章 。 第 工 章 简 单 地 复习 一 下 学 习 神 经 网 络 理论 时 所 需 的 数学 知识 。 第 2 章 
介绍 实现 深度 学 习 时 要 用 到 的 Python 开发 环境 的 安装 ， 以 及 Python 库 的 简单 用 法 。 

从 第 3 章 开 始 ， 我 们 就 要 进入 神经 网 络 的 学 习 了 。 第 3 章 介绍 神经 网 络 的 基本 形式 。 
第 4 章 介 绍 深度 神经 网 络 ， 也 就 是 深度 学 习 。 在 这 一 章 中 ， 我 们 将 结合 具体 实现 来 理解 深 
度 神经 网 络 与 普通 的 神经 网 络 有 何不 同 、 用 到 了 什么 技术 等 。 第 5 章 和 第 6 章 详细 地 介绍 
用 于 处理 时 间 序 列 数据 的 模型 一 一 循环 神经 网 络 。 其 中 第 5 章 会 以 简单 的 数据 为 例 ， 介 绍 
循环 神经 网 络 基本 形式 的 理论 和 实现 ， 而 第 6 章 将 介绍 一 些 循环 神经 网 络 的 应 用 事例 。 
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第 | 章 
数学 准备 





要 想 理解 神经 网 络 的 算法 ,我 们 必须 具备 一 定 程度 的 数学 知识 。 具 体 来 说 包括 两 种 数 
学 知识 : 一 种 是 偏 微分 ， 另 一 种 是 线性 代数 。 不 过 大 家 完全 不 用 紧张 ， 因 为 不 管 哪 一 种 ， 
都 不 需要 掌握 特别 难 的 知识 ， 只 要 记 住 基本 公式 就 可 以 了 。 而 且 ， 只 要 掌握 了 这 两 种 知识 ， 
不 管 遇 到 多 么 复杂 的 算法 ， 都 可 以 逐一 击破 、 深 刻 理 解 。 

所 以 在 这 一 章 ， 我 们 为 学 习 神 经 网 络 做 个 准备 ， 先 来 学 习 偏 微分 和 线性 代数 的 基础 知 
识 。 已 经 掌握 了 这 部 分 数学 知识 的 读者 可 以 跳 过 这 一 章 ， 直 接 进 入 第 2 草 。 


轩 偏 微 分 


1.1.1 导 函 数 和 偏 导 函数 

一 般 来 说 ， 提 到 “微分 "， 大 家 脑海 中 就 会 浮现 和 了 "(x)。 这 当然 并 没有 错 ， 不 过 要 
想 更 加 严谨 地 描述 ， 比 如 对 函数 y = f(x) 进行 微分 时 ， 我 们 就 可 以 用 下 面 这 样 的 式 子 来 进 
行 计算 。 






































f(x +Ax)— f(x) 


(1.1) 


/ a Li 
7 Ax0 
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这 里 的 (x) 就 称 为 y= Fo 的 导 函 数 或 者 微分 1。 除 了 f(x) 之 外 ， 它 还 可 以 用 下 面 这 样 的 


写法 表示 。 





进行 这 种 微分 时 ， 很 重要 的 一 点 就 是 函 


dy d 


ee (1 








数 y= f(x) 只 有 x 这 一 个 变量 。 








而 偏 微分 指 的 是 对 多 元 函数 ， 也 就 是 对 有 两 个 以 上 变量 的 函数 中 的 某 一 个 变量 进行 微 
分 *?。 我 们 先 来 看 一 个 简单 的 例子 。 有 由 两 个 变量 x 和 y 组 成 的 函数 z= f(x,y)= +3y+1， 
分 别 对 x、y 计算 偏 微 分 的 式 子 如 下 所 示 。 


Oz 

3 2 元 (1.3) 
0z 

= 

By (1.4) 
































从 这 两 个 式 子 中 可 以 看 出 ， 偏 微分 使 用 的 符号 不 是 d， 而 是 6。 此 外 ， 偏 微分 还 有 f、 记 等 


写法 。 


当然 ， 偏 微分 也 有 定义 式 。 对 比 式 (1.1)， 在 二 元 函数 z= f(x,y) 的 情况 下 ， 各 变量 的 偏 





微分 可 用 以 下 式 子 表示 。 











Oz f(x + Ax,y)— f(x,y) 
es Ax 03) 
Oz f (x,y + Ay)— f(x,y) 
By a Ay (1.6) 
把 刚才 举 的 例子 套 进 这 两 个 定义 式 里 ， 就 可 以 得 出 以 下 结果 。 
0z ~ (x+Ax) +3y+1- (x +3y+1) 
三 jini = 二 一 二 一 一 
Ox Ax—0 Ax 
_ jim 2xAx + Ax? (1.7) 
Ax—0 Ax 
三 2 


1 求 导 函数 或 者 微分 的 操作 也 称 作 “ 微 分 ” 
时 指 的 是 其 第 二 种 含义 ， 也 就 是 求 导 函 数 的 操作 。 























。 为 了 避免 混乱 ， 本 书 只 使 用 “ 导 函 数 ” 这 个 说 法 ， 提 到 “微分 ” 














2 与 偏 微分 相对 应 ,对 于 只 有 一 个 变量 的 函数 ， 














用 起 了 f(x) 表示 的 微分 也 称 为 常 微分 。 
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Oz 7 x+3y+Ay)+1—- (x +3y+1) 
一 二] 一 一 -一 
-jim 3 (1.8) 
Ay 一 0 Ay 
3 


可 以 看 出 ， 它 们 和 式 (1.3)、 式 (1.4) 一 致 。 
变量 不 只 两 个 而 是 更 多 又 会 如 何 呢 ? 我 们 把 偏 微 分 的 定义 式 扩展 到 一 般 情 况 。 对 于 拥 











有 nn 个 变量 %(i= 1,…,n) 的 多 元 函数 u = Joe， … ,Xn)， 变 量 刀 的 偏 微分 如 下 所 示 。 
Ou = lim J(XT ,说 十 A 人 xi , Xn) 一 了 (xl Rg a) (1.9) 
Xi Axi—0 Axi 





与 导 函 数 相对 应 ， 它 被 称 为 偏 导 函数 。 扩 展 到 一 般 情况 后 ， 式 子 看 起 来 复杂 了 一 些 , 但 实 
际 操作 与 两 个 变量 时 没有 区 别 ， 都 是 仅 对 其 中 一 个 变量 进行 微分 而 已 。 




















1.1.2 ”微分 系数 与 偏 微分 系数 


前 面 已 经 讲 了 微分 和 偏 微分 的 定义 式 ， 不 过 提 到 微分 ， 或 许 也 有 很 多 人 会 联想 到 “ 切 
线 的 和 斜率"”。 确 实 如 此 ， 例 如 琢 数 y= Fo 在 x = a 时 的 切线 的 和 斜率， 就 与 f(a) 一 致 。 那 么 ， 
为 什么 广 (a) 是 切线 的 斜率 呢 ? 为 了 便于 理解 ， 我 们 结合 式 (1.1) 来 思考 一 下 。 将 x=a 代 入 
式 (1.1) 后 ， 结 果 如 下 所 示 史 




















f(a + AX)— f(a) 


A (1.10) 


/ Es Li 
fin 








， 如 图 1.1 所 示 ， 当 Ax 比 0 大 到 一 定 程度 时 ，, f'(a) 并 不 是 切线 的 斜率 ， 而 只 是 
ee 
如 图 12 所 示 ， 让 Ax 无 限 趋 近 于 0， 那么 (a + Ax, f(a + An)) 就 会 无 限 趋 近 于 (a, f(a))， 
最 终 /'(a) 与 切线 的 斜率 就 一 致 了 。 这 样 求 得 的 (a) 被 称 为 函数 y= f00) 在 x = ax 时 的 微分 
系数 。 微 分 系数 既 可 以 像 式 (1.10) 那样 通过 Ax -0 的 方式 求 得 ， 也 可 以 通过 先 求 出 导 函 数 
了 "(x)， 然 后 再 将 a 代入 x 的 方式 求 得 。 无 论 哪 种 方式 ， 都 可 以 看 出 微分 系数 表示 的 是 函数 
y= f(x) 在 x 等 于 某 个 常数 时 的 倾斜 度 。 


















































>3 也 可 用 下 面 这 种 写法 ,意思 是 一 样 的 。 











je f= F(a) 
f(0= lm 








a a+Ax 


图 11 当 Ax 大 于 0 时 








a a+ Ax 


图 1.2 Ax 一 0 时 








那么 ， 偏 微分 又 是 怎样 的 情况 呢 ? 偏 微分 指 的 是 对 多 个 变量 中 的 某 一 个 变量 进行 微 
分 。 乍 一 看 ， 这 似乎 就 是 要 对 各 个 变量 求 “切线 的 斜率 "。 其 实 ， 这 种 想法 也 不 能 说 完全 是 
错 的 。 我 们 先 来 看 一 个 简单 的 例子 ， 思 考 一 下 二 维 曲 面 (抛物 面 ) z = f(x,y) = 阅 + 六 的 情 
况 ， 如 图 1.3 所 示 。 
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1.0 一 1.0 


13 抛物 面 z= x?2+y? 





对 x 进行 偏 微分 时 ， 我们 可 以 把 y 固定 为 任意 的 值 ， 那 么 z 就 会 变 成 z= g(x) := +， 
即 降 维 成 为 抛物 线 。 这 样 一 来 ， 微 分 系数 就 可 以 这 样 计算 。 


jn SA 





# (0) = eu Ax 
2 im fla+Ax,b)— f(a,b) (1.11) 
Ax—0 Ax 
于 228 


因此 ， 我 们 就 求 得 了 z= f(x,y) 在 点 (a, 5) 处 的 x 的 偏 微分 系数 。 
Cn b)=2a (1.12) 
Ox 


这 个 偏 微 分 系数 是 用 x =。 的 平面 切 开 抛物 面 z 时 ,在 x = a 处 的 微分 系数 ， 所 以 表示 的 是 
z= f(x,y) 在 x 方向 的 倾斜 度 。 计算 y 的 偏 微分 也 是 同 理 。 





1.1.3 ” 偏 微 分 的 基本 公式 

与 普通 (一 元 函数 ) 微分 一 样 ， 偏 微分 也 可 以 推导 出 用 基本 算术 运算 符 来 表示 的 公式 。 
我 们 来 试 着 考虑 一 下 二 元 函数 的 情况 。 假 定 有 由 变量 x、y 构成 的 函数 f(x,y)、g(x, y)， 那 么 
下 面 的 公式 成 立 。 



































@ 和 、 差 
0 0 0 
去 Ver y) + g(x,y)) = pA y) 十 Bs™ y) (1.13) 
@ 乘积 
6 _/39 8 
Bxf (x, y)g(X, y)) = 局 (X, 9 g(xX,y) + f(xX,y) (Bs 9 (1.14) 
@ 商 
(7%))) gy) - 
9 | fx, 由 (3xf(%y g(x,y) — f(x, y) (2&sG »)) 
Bx (gy)) (ge (3 
@ 常数 倍 (c 是 常数 ) 
0 0 
过 cy/ y) = Cari ») (1.16) 


这 里 就 不 推导 所 有 的 公式 了 ， 只 试 着 推导 式 (1.13)， 即 和 、 差 的 公式 吧 。 遵 循 式 (1.5)， 
也 就 是 偏 微分 的 定义 式 就 可 以 简单 地 推导 出 来 。 




















和 、 差 的 公式 的 推导 过 程 


(f(x + Ax,y)+ g(x+Ax,y))— (f(x,y)+ g(x,y)) 





PD Eg) = 
Xx 


Ax 一 0 Ax 
ee (f(x+Ax,y)— f(x,y)) + (s(x+Ax)— g(x,y)) 
Ax—0 Ax 
(1.17) 
a fxX+Ax,y)— f(xy) ,g(xX+Ax,y)— g(x,y) 
二 =< 熏 一 = 一 = 重 lim 2 
Ax—0 Ax Ax—0 Ax 


0 0 
= A y) 土 Bs” y) 
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其 余 的 公式 也 可 以 用 相同 方法 推导 出 来 。 





1.1.4 复合 函数 的 偏 微分 
除了 上 一 人 小节 介绍 的 公式 以 外 ， 大 家 还 需要 掌握 的 就 是 复合 函数 的 ( 偏 ) 微分 了 。 有 
函数 y= f(u) 和 2 = g(x)， 那 么 二 者 组 合 而 成 的 函数 y= f(g(%)) 就 是 复合 函数 。 此 时 ， 它 的 
导 函 数 如 下 所 示 。 























dy dy du ,, 
7 dz dr ff (80): 8 (2) (1.18) 





具体 的 推导 过 程 后 面 再 讨 ， 这 里 先 看 一 个 简单 的 例子 。 下 面 这 个 函数 该 如 何 进行 微分 呢 ? 





je (1.19) 
党 
可 以 把 它 分 解 为 以 下 两 个 函数 。 
y= logu (1.20) 
1 
uU=— (1.21) 
根据 这 两 个 函数 的 导 函 数 ， 
dy 1 
人 (1.22) 
du 本 1 
二 一 均 (1.23) 
可 以 得 到 下 式 。 
由 - “人 -总 
和 (1.24) 
x 
这 种 根据 各 个 函数 导 函 数 的 乘积 ， 来 计算 复合 函数 导 函 数 的 方法 称 为 链 式 法 则 (chain rule )。 
链 式 法 则 在 多 元 函数 中 也 成 立 。 假 设 有 多 元 函数 z 和 ni(i= 1,…,n)。 
z= f(u1, ,Ui ,Un) (1.25) 
Ui = gi(X1,*** ,Xk,*** , Xm) (1.26) 
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这 时 ， 复 合 函 数 的 偏 微分 如 下 所 示 。 


0z 
OXxk 





Of Oui Of Oun 

OuUl OXxk Oun OXxk 

a (1.27) 
iI Oui Oxk 





我 们 先 来 考虑 z = f(g8(x,y)) 的 情况 。 这 就 是 式 (1.27) 在 n= 工时 的 情况 ， 所 以 可 以 得 到 下 式 。 


_ Oz0g 
一 dg Ox (1.28) 
_ 0z0g 
三 Bg Oy (1.29) 


那么 z = f(g(x,y),h(x,y)) 的 情况 又 当 如 何 呢 ?相信 大 家 都 能 明白 ,这 次 n = 2， 所 以 可 以 得 





到 下 式 。 
oz _ dz6g ,8z 0 
Bx dgOx Hhox (1.30) 
dz _ dz08 ,zoh 
dy ded0y hdy (1.31) 

















上 面 这 些 就 是 我 们 需要 记 住 的 公式 。 链 式 法 则 在 神经 网 络 的 理论 中 会 频繁 出 现 ， 所 以 
大 家 一 定 要 把 它 牢 记 在 脑海 里 。 另 外 ， 式 (1.18) 这 样 的 一 元 复合 函数 导 函 数 的 推导 过 程 请 
见 式 (1.33)。 在 求 式 (1.30) 和 式 (1.31) 中 二 元 函数 的 偏 导 函数 时 ， 需 要 用 到 全 微分 的 知识 ， 
因此 下 一 节 会 将 全 微分 作为 拓展 内 容 进行 介绍 ， 有 兴趣 的 读者 可 以 读 一 读 。 











链 式 法 则 的 推导 ( 一 元 函数 的 情况 ) 
当 y= f(g(x))、u = g(x) 时 ， 














oy lim TGC + A) -TO 


dx Ax—0 


lim (8X+AR)— f(s). s(x + AX)— 8(0) 


(1.32) 





Ax—0 g(xX+ Ax)— g(x) Ax 


这 里 令 Au := g(x +Ax) 一 g(x)， 那么 当 Ax 一 0 时 Au 一 0,， 式 (1.32) 最 终 会 变 为 下 式 。 
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出 -im {tAD Tf s(x +Ax)- 8%) 加 
dx Ax—0 Au Ax 1 


2 jim ADT .1 SE+AY- 8(W (1.33) 
Au—0 Au Ax 一 0 Ax 
dy du 


du dx 








这 样 就 推导 出 了 链 式 法 则 。 


1.1.5 ” 纺 到 动 全 微分 


我 们 来 思考 一 下 二 元 函数 z= f(x,y) 的 情况 。 假 定 z = f(x,y) 在 点 (a,5) 处 可 全 微分 ， 
那么 我 们 可 以 用 下 面 的 式 子 来 进行 描述 。 








f(x) = fab)+(x- AA+t(y-bB+ VG —a)? +(y— Db)? a(x,y) (1.34) 


上 式 中 的 A、B 为 和 常数， 函数 g(x,y) 在 点 (a,5) 处 连续 且 a(a,5) = 0。 根据 该 定义 可 以 看 出 
常数 A4、B 分 别 等 于 f(a,b)、(a,5)。 
假设 (x,y) 从 点 (已 《微小 地 ) 移动 到 点 (a + Ax,b+ Ay) 时 函数 值 的 变化 量 为 Az， 因 为 


Az = f(a + Ax,b + Ay)— fla,b) (1.35) 


所 以 根据 式 (1.34)， 可 以 推导 出 Az 约 等 于 (有 即 第 1 次 近似 ) 





0z 0z 
-一 人 -一 人 
pm X 十 3y » (1.36) 





那么 , 在 Arz 和 Ay 都 非常 小 的 情况 下 ， 就 可 以 像 下 面 这 样 描述 。 


dz= 一 dx+ 一 dy (1.37) 
X 了 


这 里 的 dz 就 称 为 z = f(x,y) 的 全 微分 。 
另外 ，( 常 ) 微分 的 充分 必要 条 件 实际 上 也 可 以 写成 和 式 (1.34) 相同 的 形式 。 我 们 可 以 
用 下 式 来 表示 函数 > = f(x) 在 x= a 处 可 微 。 


f(x)= f(a) + (x—-a)At+(x—a)a(x) (1.38) 


010 | 第 1 章 数学 准备 





其 中 有 为 常数 、 函 数 a(x) 在 x = a 处 连续 是 a(a) = 0。 这 时 常数 4A 与 f'(a) 相等 。 
综 上 ， 就 可 以 得 出 由 x = g(?)、y = AD 组 成 的 复合 函数 z = f(x,y) 的 微分 。 


dz dzdx dzdy 











dt Oxdt Gydt (139) 
接 下 来 ,我 们 来 试 着 推导 一 下 这 条 链 式 法 则 。 
链 式 法 则 的 推导 ( 二 元 函数 的 情况 ) 
在 t=c 时 , 令 x=g(c)=a, y=h(c)=b， 根据 式 (1.38) 可 以 得 出 下 列 式 子 。 
8(D) -a= g(t-c)+(t -cal(t) (1.40) 
h(tf) ~ b=h(c)(t -ce)+(t-c)B0) (1.41) 


但 需要 a(1)、pB(?) 均 在 1=c 处 连续 ,和 且 a(c)=0, B(c) = 0。 
此 外 ,根据 式 (1.34)， 我 们 也 可 以 写成 下 面 这 种 形式 。 


f= fo D+ De- d+ DO -D+ Near 0 -yy (4 


其 中 ，y(x,y) 在 点 (a,5) 处 连续 上 且 y(a,5) = 0。 把 式 (1.40)、 式 (1.41) 代入 式 (1.42)， 则 下 式 
成 立 。 


etn) = Fla D+ -0 (a De'O + He DO)] 
af af (1.43) 
+0-0 (BG We) + WD + y(t hn) 
x y 
将 其 和 式 (1.38) 进行 比较 后 ， 可 知 
SC 王 2a, b)g’(c)+ a b)h’(c) (1.44) 


这 说 明 式 (1.39) 成 立 。 
只 要 将 x 或 者 y 其 中 一 方 固定 ， 式 (1.30) 和 式 (1.31) 中 的 链 式 法 则 就 也 可 以 通过 上 面 的 
步骤 推导 出 来 。 














1.2 线性 代数 | 011 





1 
区 线性 代数 I 


线性 代数 是 一 门 处 理 向 量 和 和 矩阵 的 学 科 。 不 过 在 神经 网 络 理论 中 ， 向 量 和 矩阵 只 是 
来 简洁 地 描述 式 子 和 处 理 式 子 的 变形 ， 并 不 会 用 到 向 量 空间 和 特征 向 量 等 领域 的 知识 ， 因 
此 本 书 的 讲解 也 只 会 覆盖 我 们 需要 掌握 的 内 容 。 














1.2.1 向 量 


1.2.1.1 向 量 的 基础 知识 
首先 从 向 量 的 基础 知识 开始 讲解 。 若 有 实数 a1,…, an*4， 那 么 向 量 可 以 这 样 表 示 。 











al 
02 
a 一 (1.45) 
Un 
或 者 也 可 以 像 下 面 这 样 表 示 。 
d= (al aq2:** dn) (1.46) 








不 过 ， 严 格 来 说 , a 是 n 维 列 向 量 , 4& 是 n 维 行 向 量 。 在 没有 特别 说 明 的 情况 下 ， 本 书 提 到 
向 量 时 指 的 都 是 前 者 的 列 向 量 ， 表 示 为 ae R"(R 是 全 体 实数 ), 与 向 量 相对 , 像 4ai: ER 这 
样 的 数 则 称 为 标量 。 此 外 ， 向 量 a 的 第 i 个 数 ai 称 为 a 的 第 i 个 元 素 。 所 有 元 素 都 是 0 的 向 
量 称 为 零 向 量 ， 用 0 表示 。 














1.2.1.2 ”向量 的 和 与 标量 倍数 
向 量 之 间 该 如 何 运 算 呢 ? 假定 有 以 下 两 个 向 量 








al bi 
a2 D2 
三 二 ,b=|. 
Un bn 


此 时 ,向 量 的 和 与 标量 倍数 的 定义 如 下 。 

















4 向 量 本 身 也 可 以 用 于 处 理 复数 ， 但 神经 网 络 不 处 理 复 数 ， 所 以 这 里 把 范围 限定 为 实数 。 所 有 元 素 都 是 实数 的 
向 量 是 实 向 量 ， 包 含 复数 的 向 量 是 复 向 量 。 
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@ 和 
二 bl 
ED 二 D2 
a+b= . (1.47) 
an+Pbn 
@ 标量 倍数 
令 天 RR 则 下 式 成 立 。 
cal 
Ca 
ca=| : (1.48) 
Can 





另外，(-1)a 记 为 -a, a+(-1)b 记 为 a-b。 以 上 是 较为 严 间 的 定义 ,实际 计算 时 我 们 
可 以 把 这 些 理解 为 “向 量 之 间 的 加 法 和 减法 ”。 

根据 以 上 定义 ， 下 述 等 式 成 立 。 

1.(a+b)+c=a+(b+c) (结合 得 


2.a+b=b+ta ( 交换 得 


中 





中 


3.4+0=0+4=4 
4.a+(-a)=(-a)+a=0 
5S.c(a+b)=ca+t+cbh 
6.(c+d)a=ca+t+da 

7. (cd)a = c(da) 
83.la=a 


其 中 , a、b、ceR",c、deR,。 


1.2.1.3 向 量 的 内 积 
存在 两 个 向 量 we R" 与 be R"， 其 中 每 个 元 素 的 乘积 之 和 就 称 为 向 量 的 内 积 ， 用 < :2 
来 表示 ， 式 子 如 下 所 示 。 








@ = Daib; (1.49) 
I=1 

















需要 注意 内 积 不 是 向 量 ， 而 是 标量 。 比 如 在 n = 2， 也 就 是 
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时 ， 内 积 @a :b= aib1 + a2b2。 
此 外 ， 相 对 于 内 积 ， 只 是 把 向 量 a 和 4b 的 各 个 元 素 相 乘 得 到 的 是 元 素 积 ， 可 以 写作 
a 9b 等 形式 ， 即 








a1D1 
02202 
490 = (1.50) 


anbn 


1.2.2 ”和 矩阵 


1.2.2.1 和 矩阵 的 基础 知识 
我 们 首先 看 一 下 矩阵 的 相关 术语 。m、n 表示 自然 数 时 ， 和 矩阵 指 的 就 是 下 面 这 样 由 
m xn 个 aij e R 的 数 排列 成 的 长 方形 阵列 5。 








Ull 412 i dln 
U21 022 U2n 

4=-| (1.51) 
Uml dm2 Umn 


男 外 它 还 可 以 简写 为 4 = (az) 的 形式 。 这 里 的 aij 称 为 4 的 (i,j) 元素 。 元素 全 部 为 0 的 矩 
阵 是 零 矩阵 ,用 O 来 表示 。 

当 m=n 时 , 画 x 和 矩阵 44 称 为 正方 矩阵 或 地 阶 矩阵 。 这 时 aii(i = 1,…,n) 称 为 4 的 对 
角 元 素 。 另 外 ， 对 角 元 素 以 外 的 元 素 都 为 0 的 矩阵 叫 作 对 角 和 矩阵 。 更 特别 的 是 ， 所 有 对 角 
元 素 全 部 为 1 的 nxn 和 矩阵 称 为 n 阶 单位 矩阵 。 单 位 矩阵 用 EE, 或 1 来 表示 。 
我 们 也 可 以 把 矩阵 看 作 向 量 的 排 询 。 对 于 矩阵 和 A， 下 面 是 它 的 第 i 行 向 量 。 























di = (il ai2: din) (i=1,...,m) (1.52) 





下 面 是 它 的 第 7 列 向 量 。 











>5 与 向 量 相同 ,和 矩阵 也 可 以 用 于 处理 复数 ,但 在 神经 网 络 中 只 考虑 实数 即 可 ， 所 以 这 里 把 范围 限定 于 实数 。aij 
都 为 实数 的 矩阵 是 实 矩 阵 、 包 含 复 数 的 矩阵 是 复 矩 阵 。 
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a=| | G=1,..,n) (1.53) 


1.2.2.2 ”和 矩阵 的 和 与 标量 倍数 
接 下 来 看 一 下 和 矩阵 的 运算 。 假 定 和 矩阵 4 = (aij) 和 B= (bij) 是 同样 的 mxn 矩阵， 那么 
矩阵 的 和 与 标量 倍数 的 定义 如 下 。 








外 和 
A+B= (ai 十 bi;) (1.54) 
@ 标量 倍数 
令 | R, 则 下 式 成 立 。 
cA = (caij) (1.55) 

















另外， 相对 于 和 矩阵 A， 和 矩阵 -4 记 为 -A =(-aij), A+(-B) 记 为 4-B。 也 就 是 说 , 与 
向 量 的 情况 一 样 ， 我 们 可 以 把 这 些 运 算 理 解 为 “矩阵 的 加 法 和 减法 ”。 
根据 以 上 定义 ， 下 述 等 式 成 立 。 
1.A+B=B+A ( 交换 律 
2.(4+B)+C=A+(B+C) (结合 律 
3.4+O=O+4=4 
4.4+(-4)=(-4)+4=O 
5.c(A4+B)=cA+cB 
6.(c+d)A=cA+dA 
7.c(dA) = (cd)4 
8.14 =4 
其 中 , A、B、 CeR”™", c、 deR。 





1.2.2.3 ”和 矩阵 的 乘积 
不 同 于 矩阵 的 和 或 标量 倍数 ， 和 矩阵 的 乘积 需要 我 们 稍 加 和 留意。 首先 来 看 一 下 和 矩阵 乘积 
的 定义 。 若 有 mxn 和 矩阵 A = (aij) 和 nxl1 算 了 泗 B = (bjx)， 那么 其 乘积 AB 如 下 定义 。 


A (1.50) 
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了 


CiK = Gil1DIKE + ai2b2x + *** + dinbnk 
n 
= Yawbje G=1 1 大 =1 1) 
j=1 


(1.57) 








如 果 用 矩阵 的 各 个 元 素来 表示 ， 可 以 写成 下 面 这 样 (相当 于 式 (1.57) 的 部 分 用 粗 体 显示 )。 


dll 412 … ”aln CIT 5 天 2 
| DID 
DO 0 Do : 
dil Mi2 °°* din . |=| Ci *** Cik *** Ci (1.58) 


bni Ce bnk bnl 
Uml dm2 *** Umn Cml *** Cmk *** Cml 











请 是 m x1 和 矩 阵 。 乍 一 看 和 矩阵 的 乘积 很 复杂 ,但 是 如 果 把 矩阵 和 4、B 像 下 面 这 样 看 
成 元 阶 行 向 量变 (= 1,…,m) 和 nn 阶 列 向 量 bx(k = 1,…,/) 的 排列 





al 
A=| a |,B=(bi:.. br :.. bi) (1.59) 
os 
那么 4AB 就 可 以 表示 为 如 下 形式 。 
AB = (Gi: be) (=1,..,m, k=1,...,D) (1.60) 





由 此 就 可 以 看 出 ，AB 是 由 各 行 向 量 和 各 列 向 量 的 内 积 所 组 成 的 矩阵 5。 

因此 ， 只 有 在 n= 的 情况 下 才能 求 得 mxn 和 矩 阵 A4 和 kx1l 和 矩阵 B 的 乘积 4B， 而 这 时 
4 是 一 个 mx 1 矩阵 。 这 就 意味 着 即便 4B 可 以 计算 ，B4 也 不 一 定 就 能 够 计算 ， 而 且 即 使 
都 可 以 计算 , 4B = BA 也 不 一 定 成 立 。 甚 至，AB # BA 的 情况 更 多 。 

我 们 来 看 一 个 例子 ,假设 矩阵 A 和 和 矩阵 B 如 式 (1.61) 所 示 。 


1 2 3 
4=(, 5 Se 











1 
2 (1.61) 
&: 





Pp6 与 内 积 相对 ,通过 计算 (大 小 相同 的 ) 矩阵 的 每 个 元 素 的 乘积 而 得 到 的 和 矩阵 乘积 称 为 哈达 玛 积 ( Hadamard 
product )。 如 果 将 向 量 看 作 是 行 或 者 列 的 大 小 为 1 的 矩阵， 那么 也 可 以 把 向 量 的 元 素 积 视 为 哈达 玛 积 。 
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A 是 2x3 和 矩阵 ,，B 是 3x1 和 矩阵 ， 因 此 乘积 4B 是 如 下 所 示 的 2x1 和 矩阵 。 


14 
48= [2] (1.62) 





而 这 时 BA 是 无 法 计算 的 。 男 外 ， 对 于 下 面 这 样 的 矩阵 C 和 算 阵 D 





1 2 4 3 
c-3 四 =? 1 (1.63) 
进行 计算 之 后 发 现 CD DC。 
18 5 _/13 20 
cp- (2% oes | (1.64) 




















不 过 ， 和 矩阵 乘积 的 结合 律 是 成 立 的 。 也 就 是 说 ， 对 于 mxn 和 矩阵 A4、nxl1 和 矩阵 B、1xr 
和 矩阵 C， 下 述 式 子 成 立 。 





(AB)C = 4(BC) (1.65) 





通过 比较 各 个 矩阵 的 元 素 就 能 验证 这 个 结论 。 
另外， 分配 律 也 是 成 立 的 。 对 于 m xn 和 矩阵 A4、nx1 和 窍 阵 BB 和 C、1xr 和 矩阵 D， 下 述 
式 子 成 立 。 




















A(B+C)=AB+AC (1.60) 
(B+C)D=BD+CD (1.67) 


1.2.2.4 正则 矩阵 与 逆 和 矩阵 

前 面 已 经 讲 过 ,一 般 来 说 ， 对 于 nn 阶 正方 矩阵 A 和 BB，AB BA。 但 是 我 们 也 可 以 立 
刻 判 断 出 ， 对 于 阶 单位 矩阵 TI，AT = 74 = 4 成 立 。 也 就 是 说 , 了 起 到 了 与 数字 1 相同 的 
作用 。 

接 下 来 请 思考 一 下 : 等 于 所 的 矩阵 B， 也 就 是 满足 4B = BA = 了 的 矩阵 B 是 否 存 在 ? 
例如 ,矩阵 4 和 和 矩 阵 B 如 下 所 示 。 


4= 人 2 | 3 (1.68) 














此 时 ,我 们 可 以 得 出 


48=84= | J (1.69) 
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像 这 样 ， 如 果 存 在 矩阵 B 使 得 4B = BA = 成 立 ， 那 么 此 时 和 矩阵 4 就 称 为 正则 德 阵 ， 生 阵 
B 则 称 为 4 的 疗 矩 阵 ， 用 4-! 来 表示 。 如 果 有 和 珑 阵 召 、 妈 ' 分 别 满足 B4 = 了 和 4B' =7T， 那 
么 可 以 推导 出 下 式 。 


B=BI=BAB)=(BA)B’=1B’=B’ (1.70) 




















因此 ,4 的 道 和 矩阵 4-1 是 唯一 的 。 
接 下 来 看 一 下 和 矩阵 乘积 的 道 矩 阵 吧 。 对 于 半 阶 正方 矩阵 4 和 B，(4B)-! 等 于 什么 呢 ? 
如 果 4 和 B 都 是 正则 矩阵， 那么 下 式 成 立 。 











(AB)(B -1A !)= 4(BB-D4- = 44-1=T (1.71) 





所 以 乘积 AB 也 是 正则 式 ， 由 此 可 以 推导 出 (4B)-! = B-14-!,。 另外 , 根据 44-1=4-14=7 
可 以 得 出 4-: 是 正则 矩阵， 其 闭 矩 阵 (4-0-1= 4。 





1.2.2.5 转 置 矩阵 
关于 和 矩 阵 还 有 一 个 重要 的 概念 ， 那 就 是 转 置 矩阵 。 这 是 通过 交换 m x n 和 矩阵 4 = (aij) 
的 行 和 列 所 得 到 的 nxm 和 矩阵 ， 记 作 AT 或 '4。 我 们 通过 式 子 来 看 一 下 。 















































Ull U12 dln 
U21 422 U2n 

A=| . .| . (1.72) 
Uml dm2 **: Umn 


dll C21 en Uml 
T C12 422 So Um?2 
4 =| . 号 (1.73) 
dln Un 人 Umn 
假设 有 如 下 的 和 矩阵 4。 
d= | | (1.74) 
那么 ， 其 转 置 矩阵 如 下 所 示 。 
1 4 
4I=|2 5 (1.75) 
3 6 
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另外 , 4I = 4 的 矩阵 称 为 对 称 矩 阵 。 
根据 转 置 矩 阵 的 定义 ， 以 下 描述 成 立 。 
1.4、B 均 为 mxn 和 矩阵 时 , (4 +B)' = AT+BT 
2.(cA)T =cAT 
3.(4DT =4 
4. 若 半 阶 正方 矩阵 4 为 正则 和 抢 阵 ， 则 有 (4D-1 = (4-07 
5.4 为 mxn 和 矩阵 、B 为 n x1 和 矩阵 时 , (4B)T' = BTAT 


| 小 结 








本 间作 为 学 习 深 度 学 习 、 神 经 网 络 理 论 之 前 的 准备 ， 介 绍 了 偏 微 分 和 线性 代数 的 
基本 定义 和 公式 。 二 者 都 是 在 理解 模型 时 不 可 欠缺 的 知识 。 

在 本 曹 的 前 半 部 分 ,我们 了 解 了 偏 微分 是 只 对 多 元 函数 的 划一 个 函数 进行 的 微 
分 ,学习 了 偏 导 函数 和 偏 微分 系数 的 定义 ， 以 及 它们 四 则 运算 的 基本 公式 , 还 有 在 学 
习 偏 微分 时 不 得 不 提 的 复合 函数 的 微分 一 一 链 式 法 则 。 我 们 分 别 推导 了 一 元 函数 和 多 
元 函数 情况 下 的 链 式 法 则 的 公式 。 

在 线性 代数 部 分 ,我们 学 习 了 向 量 和 和 矩阵 的 定义 及 公式 ， 还 有 和 矩阵 的 和 与 标量 信 
数 的 公式 、 向 量 内 积 和 和 矩阵 乘积 的 表达 式 。 和 矩阵 的 乘积 由 各 和 矩阵 的 行 向 量 和 列 疝 量 的 
内 积 组 成 。 另 外 ,我 们 还 了 解 了 线性 代数 中 不 可 或 缺 的 逆 矩 阵 和 转 置 矩 阵 的 知识 。 

关于 这 里 涉及 的 数学 理论 ， 本 书 既 有 加 以 省 上 略 的 部 分 ,也 有 严谨 对 待 的 部 分 。 想 
要 了 解 更 多 细节 、 更 扎实 地 学 习 数 学 理论 的 读者 ， 请 阅读 参考 文献 [1][2][3] 等 资料 。 

本 章 做 的 是 理论 基础 方面 的 准备 ， 接 下 来 的 第 2 章 将 要 做 的 是 代码 实现 方面 的 准 
备 。 我 们 将 会 了 解 Python 环境 的 搭建 和 如 何 使 用 库 进行 计算 等 内 容 。 
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深度 学 习 领 域 的 研究 日 新 月 异 ， 有 许多 模型 被 设计 出 来 ， 而 这 些 模型 都 是 作为 算法 来 
描述 的 ， 理 论 上 可 以 用 任何 语言 来 实现 。GitHub*! 等 网 站 上 也 确实 公开 了 Python 、Java、C、 
C++、Lua、R 等 多 种 语言 的 实现 。 在 这 些 语言 之 中 ，Python 是 人 气 最 高 的 。 无 论 是 个 人 还 
是 企业 ,不 同 的 开发 环境 中 均 可 看 到 Python 的 身影 所 。 它 人 气 高 的 理由 有 很 多 ， 下 面 就 列 
举 其 中 的 3 点 。 


























@ 作为 脚本 语言 可 以 轻松 实现 
@ Python 的 数值 计算 库 很 丰富 
@ Python 的 深度 学 习 库 很 丰富 











库 (library ) 是 在 一 定 程 度 上 封装 好 的 处 理 ， 不 仅 可 以 供 其 他 程序 调用 ， 也 可 以 重复 使 用 。 
Python 提供 了 很 多 方便 的 库 ， 如 果 大 家 能 熟练 使 用 它们 ， 就 可 以 减少 需要 自己 开发 的 代码 
量 ， 提 升 开发 效率 。 

因此 ， 为 了 顺利 实现 深度 学 习 算 法 ， 本 章 将 会 逐一 讲解 Python 环境 的 搭建 、Python 的 
基础 知识 和 具有 代表 性 的 库 的 使 用 方法 等 内 容 。 对 Python 已 经 比较 熟悉 的 读者 ， 可 以 跳 过 














Pl https://github.com/ 

2 在 GitHub 搜索 “deep learning”， 就 可 以 看 到 用 各 个 语言 开发 的 代码 库 数量 ( 项目 数 )， 进 而 了 解 它们 的 热门 
程度 。 到 2017 年 1 月 为 止 ，Python 开发 的 项 目 有 2100 个 左右 ， 其 次 是 用 Jupyter Notebook 开发 的 项 目 ， 有 
1050 个 左右 ， 另 外 Matlab 开发 的 有 250 个 左右 。 可 以 说 Python 是 一 骑 绝 尘 的 。( 其 实在 Jupyter Notebook 上 
也 主要 是 用 Python 语言 来 进行 开发 的 一 一 译 者 注 ) 
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2.1 节 ~2.3 节 的 内 容 。 另 外 提前 说 一 下 ， 本 书 使 用 的 是 Python 3。 


Python 2 和 Python 3 

Python 官网 上 汇总 了 Python 的 相关 资讯 、Python 的 基本 结构 及 语法 等 各 种 信息 。 
Python 的 安装 文件 也 可 以 从 官网 上 下 载 。 可 是 笔者 在 2017 年 1 月 访问 官网 的 下 载 页 面 *4 
时 ， 该 页 面 提供 了 Python 2.7.13 和 Python 3.6.0 两 种 安装 文件 。 那 么 ， 这 两 种 文件 有 什么 区 
别 呢 ? 

2.7.13 或 3.6.0 这 样 的 数字 表示 的 是 Python 发 布 时 的 版 本 号 。 因 为 Python 自身 也 会 
随 着 功能 的 改进 以 及 bug 的 修复 而 不 断 更 新 。 用 点 分 隔 开 来 的 3 个 数字 依次 叫 作 主 版 本 
(major )、 次 版 本 ( minor ) 和 小 版 本 ( micro )。 也 就 是 说 ，Python 同时 提供 2 个 主 版 本 ，2 
和 3。 不 只 Python， 其 他 的 编程 语言 、 软 件 、 应 用 程序 也 用 这 样 的 方法 标记 版 本 ， 而 主 版 
本 的 变更 意味 着 大 的 功能 变更 。 
一 般 来 说 ， 官 网 不 会 一 直 维 护 旧 版 本 ,所 以 推荐 大 家 使 用 新 版 本 ( 即 版 本 号 大 的 版 
本 )。Python 也 一 样 ， 部 分 Python 2 的 语法 在 Python 3 中 发 生 了 改变 ， 互 不 兼容 。 比 如 在 打 
印 "hello，worldl" 字符 串 时 ， 在 Python 2 中 要 如 下 书写 。 


















































print "hello, worldgl 


而 在 Python 3 中 ,不 加 "()" 就 会 报错 。 


print("hello, world!") 


此 外 ,在 Python 官网 的 Wiki 上 "5 也 有 这 样 一 句 话 。 


Python 2.x is legacy, Python 3.x is the present and future of the language 




















翻译 过 来 就 是 “Python 2.x 已 是 过 去 的 遗产 ，Python 3.x 才 是 Python 的 现在 和 未 来 ”。 
因此 我 们 很 容易 萌生 “安装 Python 2 还 有 什么 用 ”的 想法 。 但 实际 上 ， 在 使 用 Python 3 





P3 https://www.python.org/ 
P4 https:/www.python.org/downloads/ 
Pb5 https://wiki.python.org/moin/Python2orPython3 
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进行 开发 时 会 遇 到 一 些 麻烦 。 其 中 一 个 比较 大 的 问题 就 是 库 的 版 本 兼容 性 。 有 些 库 只 文 持 
Python 2， 特 别 是 在 刚刚 发 布 Python 3 的 时 候 ， 许 多 库 都 不 支持 Python 3。 男 外 ， 也 不 知 是 
好 是 坏 ， 在 2008 年 Python 3.0 发 布 之 后 ，Python 2.x 依然 得 到 了 版 本 更 新 ， 这 导致 有 些 库 
在 对 Python 3 的 支持 上 述 迟 未 实现 ， 所 以 使 用 Python 2 开发 更 方便 的 状态 持续 了 很 长 时 间 。 
虽然 现在 很 多 主要 的 库 都 支持 Python 3 了 ,但 下 面 这 些 原因 的 存在 ,使 得 人 们 对 Python 2 
的 需求 依然 很 高 。 























@ 想 用 那些 (依然 ) 只 支持 Python 2 的 库 
@ 一 直 以 来 都 是 用 Python 2 开发 的 , 迁移 ( 重 写 ) 到 Python 3 的 开发 成 本 大 高 ， 很 难 
推行 











本 书 中 用 于 实现 的 几 个 库 都 是 支持 Python 3 的 ， 所 以 本 书 将 使 用 Python 3。 


pp 大 Anaconda 发 行 版 

从 官网 上 下 载 Python 3 的 安装 文件 当然 没有 问题 ， 但 是 这 么 做 的 话 ， 每 次 想 用 某 个 库 
的 时 候 都 得 另外 再 去 安装 。 当 然 ， 每 次 需要 时 再 去 安装 也 不 会 影响 开发 ， 就 是 太 麻 烦 了 。 

这 时 我 们 可 以 考虑 使 用 Python 的 发 行 版 。 这 是 预先 安装 好 了 几 种 主要 库 的 Python， 可 
以 省 去 另行 安装 的 麻烦 。 尤 其 是 Continuum Analytics 公司 ”提供 的 Anaconda 发 行 版 ， 它 网 
罗 了 进行 数值 计算 所 需 的 主要 的 库 ， 能 够 帮助 用 户 高 效 地 进行 深度 学 习 的 开发 。 本 书 中 的 
实现 就 将 以 安装 了 Anaconda 为 前 提 ， 所 以 让 我 们 先 去 安装 Anaconda 吧 。 

Windows 、Mac 和 Linux 操作 系统 下 的 Anaconda 安装 文件 都 可 从 其 官网 上 下 载 所 。 下 
载 好 所 需 的 安装 文件 后 ， 就 可 以 通过 GUI 界面 配置 开发 环境 了 。 安 装 文件 又 分 为 搭载 了 
Python 3.x 的 版 本 和 搭载 了 Python 2.x 的 版 本 (2017 年 1 月 时 为 Python 3.5 和 Python 2.7 )， 
请 选择 搭载 了 Python 3.x 的 安装 包 。 另 外 ， 对 于 安装 时 界面 上 出 现 的 一 些 设置 问题 ， 基 本 
上 遵循 默认 设置 即 可 。 

如 果 对 开发 环境 没有 什么 特别 的 要 求 这 么 做 就 可 以 了 ， 不 过 在 Mac 和 Linux 上 并 不 推 
荐 使 用 安装 文件 来 配置 环境 。 后面 整 理 了 在 Mac 和 Linux 上 配置 开发 环境 的 方法 ， 请 有 需 
要 的 读者 参考 。 















































Po https:/www.continuum.io/ 


P77 https://www.continuum.io/downloads 
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Python ( Anaconda ) 安装 成 功 之 后 ， 在 命令 行 或 终端 执行 以 下 命令 。 


$ python --version 


这 样 ， 就 可 以 得 到 下 面 的 结果 。 





Python 3.5.2 :: Anaconda 4.2.0 (x86_64) 


由 此 ，Python 3 的 安装 就 完成 了 。 在 本 书后 面 的 章节 中 ， 如 果 没 有 特别 说 明 ， 提 到 
Python 时 指 的 就 是 Python 3。 

















Mac 的 情况 
Mac 有 一 个 专用 的 包 管 理工 具 ,， 叫 作 Homebrew。 首 先 要 安装 这 个 工具 。 正 如 其 官 
网 所 介绍 的 ， 只 需 执 行 以 下 命令 即 可 完成 安装 。 





$ /usr/bin/ruby -e "$(curl -fsSL 
https://raw.githubusercontent.com/Homebrew/install/master/install)" 


























安装 Homebrew 后 ， 通 过 brew 命 令 就 能 够 简单 快速 地 安装 许多 库 和 包 了 。 比 如 ， 默 认 
情况 下 Mac 里 没有 用 于 下 载 指定 URL 文件 的 wget 命令 ,但 只 需 执行 下 面 这 行 命令 ,就 可 
以 使 用 wget 了 。 





$ brew install wget 


如 果 需 要 在 Mac 上 安装 与 开发 相关 的 库 ， 基 本 上 都 可 以 使 用 Homebrew 来 安装 。 

虽然 Homebrew 非常 方便 ， 但 是 如 果 使 用 安装 文件 来 安装 Anaconda， 就 可 能 会 导致 环 
境 配置 发 生 冲 突 ，Homebrew 或 Anaconda 无 法 正常 工作 的 问题 。 对 于 Linux 来 说 也 是 如 此 ， 
即便 没有 用 Homebrew， 而 是 安装 了 其 他 的 包 ， 也 可 能 会 发 生 冲 突 。 下 面 就 来 介绍 避免 这 个 
问题 发 生 的 方法 。 


























Pb8 http://brew.sh/ 
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Mac 和 Linux 的 情况 
Python 里 有 一 个 叫 作 pyenv*?” 的 版 本 管理 工具 。 通 过 pyenv， 可 以 在 一 台 机 器 上 安装 多 
个 版 本 的 Python ， 根 据 需要 区 分 使 用 。 假 如 我 们 不 得 不 在 同一 台 机 器 上 开发 Python 2.7 和 
Python 3.5 的 项 目 ， 用 这 个 工具 就 非常 方便 了 。 
pyenv 本 来 是 用 于 版 本 管理 的 工具 ， 不 过 通过 它 也 可 以 在 用 户 环 境 下 安装 Python ， 这 
样 就 可 以 在 不 影响 机 器 环境 的 前 提 下 导入 Python 了 。 此 外 ，pyenv 还 可 以 安装 Anaconda， 
所 以 在 Mac 和 Linux 上 通过 pyenv 来 安装 Anaconda 即 可 。 在 Mac 中 安装 pyenv 的 命令 如 下 
所 示 。 




































































$ brew install pyenv 


在 Linux 中 的 安装 命令 如 下 。 


$ git clone https://github.com/yyuu/pyenv.git ~/.pyenv 





执行 下 列 命 令 ， 即 可 完成 pyenv 的 环境 变量 设置 (如果 使 用 的 shell 是 Zsh， 请 把 ~/ .bash_ 
profile 替换 为 ~/ .zshrc )。 





i 


echo 'export PYENV_ ROOT="${HOME}/.pyenv"' >> ~/.bash profile 
echo 'export PATH="${PYENV ROOT}/bin:$PATH"' >> ~/.bash_ profile 
echo 'eval "$(pyenv init -)"' >> ~/.bash profile 


tH 二 


An 


exec $SHELL 
pyenv 安装 好 之 后 ， 执 行 pyenv install --list， 就 会 显示 可 以 安装 的 Python 列表 。 


$ pyenv install --list 
Available versions : 
3 


3.6.0 
Pp9 https://github.com/yyuu/pyenv 


P10 pyenv 切换 的 是 Python 的 整个 版 本 ， 还 有 一 个 叫 作 virtualenv 的 工具 ， 能 够 在 同一 个 版 本 下 ,根据 项 目 进 
步 切 换 具 体 的 Python 环境 。 不 过 本 书 中 不 会 使 用 到 virtualenv。 
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anaconda3-4.1.1 
anaconda3-4.2.0 
ironpython-dev 





找到 想 要 安装 的 版 本 ( 发行 版 ) 后 ， 执 行 pyenv _ install < 版 本 名 >。 此 次 需要 安装 的 是 
Anaconda ( 最 新 版 )， 所 以 执行 以 下 命令 。 


$ pyenv install anaconda3-4.2.0 
Downloading Anaconda3-4.2.0-MacOSX-x86_64.sh... 
-> https://repo.continuum.io/archive/Anaconda3-4.2.0-MacOSX-x86_64.sh 














可 以 用 pyenv versions 命令 查看 通过 pyenv 安装 的 Python 版 本 列表 。 








$ pyenv versions 
* system 
anaconda3-4.2.0 











前 面 带 有 "*" 的 是 当前 机 顺 上 默认 使 用 的 版 本 。 如 果 想 切换 版 本 ， 执 行 pyenv global < 版 本 
名 > 即 可 。 





$ pyenv global anaconda3-4.2.0 


$ pyenv versions 
system 
* anaconda3-4.2.0 





可 以 看 到 版 本 已 经 切换 了 。 男 外 ， 如 果 希 望 只 在 某 个 特定 目录 (项目 ) 下 使 用 其 他 版 本 ， 
那么 在 该 目录 下 执行 pyenv local < 版 本 名 > 即 可 。 比 如 ， 我 们 想 要 创建 一 个 tmp 目录 ,并 
在 这 个 目录 下 使 用 system 版 本 ,那么 就 可 以 采用 以 下 做 法 。 





$ mkdir tmp 
$ cd tmp 
$ pyenv local system 
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执行 pyenv version， 就 可 以 查看 当前 目录 下 应 用 的 是 哪个 Python 版 本 。 


$ pyenv version 


System 


这 时 看 一 下 目录 下 的 文件 列表 。 


$ ls -a 
.Python-version 
可 以 看 到 目录 下 生成 了 .python-version 文件 。 再 看 一 下 文件 的 内 容 。 


$ cat .python-version 


System 





可 以 看 出 正 是 这 个 文件 指定 了 pyenv 应 用 的 版 本 。 


Python 的 基础 知识 


2.3.1 Python 程序 的 执行 


Python 程序 是 通过 Python 解释 器 来 执行 的 。 执 行程 序 时 ， 只 需 把 记载 了 代码 的 脚本 名 
(一 般 就 是 扩展 名 为 .py 的 文件 路 径 ) 传 给 python 命令 即 可 ， 不 需要 进行 程序 的 编译 等 操 
作 。 比 如 在 当前 目录 下 有 文件 名 为 nello_world.py 的 脚本 ， 其 内 容 如 下 所 示 。 






































print("hello, world!™) 











要 运行 这 个 程序 ， 只 需 执行 以 下 命令 即 可 。 


$ python hello world.py 


执行 后 界面 上 应 该 就 会 打印 出 hello，world! 字符 串 。 
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Python 程序 基本 上 就 是 “在 文件 中 编写 程序 一 指定 此 文件 名 后 执行 ”这 样 的 流程 。 不 
过 ， 用 对 话 模式 也 可 以 启动 Python 解释 器 。 如 果 不 带 任何 参数 ， 只 执行 python 命令 本 身 ， 
那么 在 版 本 号 等 启动 消息 之 后 就 会 出 现 >>>， 这 表明 已 经 进入 了 对 话 模式 。 

















$ python 

Python 3.5.2 |Anaconda 4.2.0 (x86 64)| (default, Jul 2 2016, 17:52:12) 
EG nnn 

mypem help ee copyrusht ee cedns om cense tommorenntormatlone 


a 





在 对 话 模式 下 可 以 直接 输入 Python 脚本 并 执行 ， 所 以 想 做 一 些 简单 的 处 理 或 者 检查 运行 情 
况 时 用 它 非常 方便 。 执 行 以 下 命令 后 ， 对 话 模式 在 执行 完 1 个 处 理 后 ,会 继续 等 待 下 一 个 


命令 。 


>>> print("hello, world!") 
hello, world! 


> 


同时 按 下 Ctl+D 键 ， 即 可 结束 对 话 模式 。 
顺便 提 一 下 ， 在 对 话 模式 下 输入 值 和 表达 式 ， 会 直接 返回 执行 的 结果 。 因 此 ， 如 有 果 我 
们 想 做 一 些 简 单 的 计算 ,那么 用 对 话 模式 就 非常 方便 了 。 








>>> "hello, world!" 
'hello, world!' 
:| 

1 

> 


3 


2.3.2 数据 类 型 


2.3.2.1 类 型 是 什么 
Python 有 许多 语法 和 句 式 结构 。 由 于 篇 幅 所 限 ， 本 书 无 法 介绍 所 有 的 语法 ( 而且 也 没 
有 必要 全 部 熟 记 于 心 )， 这 里 只 介绍 那些 在 实现 深度 学 习 时 需要 用 到 的 语法 。 
首先 我 们 要 知道 的 是 Python 中 有 许多 数据 类 型 。 这 是 什么 意思 呢 ? 我 们 先 看 一 下 例 























2.3 
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子 。 请 启动 Python 解释 屁 。 





>>> "I have a pen." 
Thave apene 
> 

1 

>>> 1+ 1 


到 这 里 完全 没有 问题 。 那 么 下 面 这 种 情况 呢 ? 


>>> "I have "+ 2 + " pens." 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError ean trconverte nt object tonstreumplnenly 


本 以 为 最 后 会 显示 I have 2 pens., 结果 却 出 错 了 。TypeError: Can't convert 'int' object 








to str implicitly， 也 就 是 “无 法 随意 将 int 转换 为 str” 的 意思 ， 这 里 的 int 和 str 就 是 














类 型 。int 是 整数 型 、str 是 字符 串 型 ，Python 不 知道 该 如 何 直 接 计 算 二 者 的 和 。 这 种 不 同 








类 型 之 间 的 数据 计算 或 求 值 正 是 我 们 需要 留意 的 情况 。 
Python 中 有 各 种 各 样 的 数据 类 型 ,我 们 先 来 看 一 下 基本 的 类 型 。 





2.3.2.2 ”字符 串 类 型 
顾名思义 ， 字 符 串 类 型 ( str*1 ) 就 是 涉及 字符 串 的 数据 类 型 。 





Python 使 用 单 引 号 








(',..') 或 者 双 引 号 ("..." ) 把 字符 串 包 起 来 , 用“\” 对 引号 进行 转 义 。 下 面 来 看 一 下 它 


们 的 示例 用 法 。 


>>> 'I am fine.’ 

“am fnes 

>>> 'I\'m fine. 

lm fmnen, 

>>> "I'm fine." 

lm fmnen 

>>> 'He said, "I am fine.”"' 


"He said, "I am fine.”"’ 


P11 string 的 缩写 。 
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>>> "He said, \"I am fine.\"" 
"He said, "I am fine."’ 
>>> "She said, "I\'m fine." 


"She said, "I\'m fine." 





只 有 最 后 一 个 例子 的 转 义 符 还 残留 着 ， 所 以 乍 一 看 会 以 为 这 是 出 错 了 ， 不 过 打印 之 后 可 以 








看 出 格式 是 正确 的 。 


>>> print('She said, "I\'m fine."') 
She said, "I'm fine." 


当然 ， 中 文字 符 也 没 问 题 。 


>>> " 中文 也 没 问题 。" 
' 中 文 也 没 问题 。， 


另外 字符 串 可 以 用 “*” 连接 ， 用 “*” 重复 。 


> UY + Ve SR 
Mes 
>>> 'Y' + 5*'@' +'s!' 


'Yeeeees!" 


2.3.2.3 ”数值 类 型 





Python 中 的 数值 类 型 分 为 整数 类 型 ( int*2 ) 和 浮 点 数 类 型 ( float ) *。 浮 点 数 是 用 二 


进 制 进行 计算 的 计算 机 在 处 理 带 小 数 点 的 实数 时 内 部 使 用 的 数据 格式 。 理 论 上 ， 





浮 点 数 用 


于 将 小 数 (接近 于 ) 无 限 位 的 数 精确 到 有 限 位 内 的 近似 值 *“。 整 数 不 需 要 这 种 近似 处 理 ， 




















所 以 通过 区 分 使 用 整数 类 型 和 浮 点 数 类 型 ， 可 以 提高 计算 的 精度 和 效率 。 








既然 是 数值 类 型 ,那么 当然 可 以 进行 各 种 数学 计算 。“+”“-”“*”“/” 分 别 对 应 四 则 





运算 的 加 法 、 减 法 、 乘 法 和 除法 。 这 个 写法 几乎 在 所 有 的 语言 中 都 是 一 样 的 。 


12 integer 的 缩写 。 
P13 除 整数 、 浮 点 数 之 外 还 有 复数 类 型 ( complex ), 但 本 书 中 没有 用 到 该 类 型 。 
14 维基 百科 上 有 更 详细 的 说 明 ， 有 需要 的 读者 请 自行 参考 。 
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这 里 需要 注意 的 是 4 / 2 的 结果 不 是 2， 而 是 2.6， 因 为 除法 ( / ) 的 结果 都 是 浮 点 数 类 型 。 
只 想 要 整数 部 分 时 ， 需 使 用 “//”。 


>>>059W/2 























这 样 一 来 ， 计 算 结 果 就 是 整数 类 型 了 。 但 是 ， 如 果 被 除数 为 浮 点 数 类 型 ， 比 如 





=>>> 5 0 /2 


那么 ， 得 到 的 结果 就 又 变 成 浮 点 数 类 型 了 。 
我 们 来 看 一 下 下 面 这 个 计算 式 。 





人 > 
6.0 









































计算 结果 本 身 当然 是 正确 的 ， 但 是 输出 值 是 6.9， 而 不 是 65。 仔 细 一 看 就 能 发 现 这 个 计算 式 
中 既 有 整数 类 型 又 有 浮 点 数 类 型 ， 也 就 是 在 不 知 不 觉 中 发 生 了 不 同类 型 之 间 的 计算 。 像 这 
样 ， 类 型 不 统一 的 数值 之 间 进 行 计算 时 Python 不 会 报错 ， 而 是 会 自动 把 整数 类 型 转换 为 浮 
点 数 类 型 ,然后 再 进行 计算 。 所 以 在 计算 时 ， 用 户 一 般 不 需要 考虑 是 否 有 整数 类 型 和 浮 点 
数 类 型 混合 的 情况 。 


如 果 想 将 类 型 明确 地 转换 为 整数 类 型 或 浮 点 数 类 型 ， 可 以 相应 使 用 int() 或 float()。 














> 
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2 

>>> int(2.5) 
双 

>>> float(2) 
2 0 




















如 上 面 的 例子 所 示 ， 使 用 了 int() 后 小 数 点 部 分 被 舍弃 ， 输 出 的 是 整数 类 型 。 男 外 ,使 用 
str() 也 可 以 把 数值 转换 为 字符 串 。 


>>> "I have " + str(2) + " pens." 


Thavee2pens 


2.3.2.4 布尔 类 型 

布尔 类 型 (bool ) 是 只 有 True 和 False 两 个 值 的 类 型 ， 用 于 逻辑 运算 和 真 假 值 判断 。 
在 程序 内 常常 被 用 于 区 分 不 同情 况 ( 条 件 分 支 )， 某 一 条 件 为 真 时 输出 True、 为 假 时 输出 
False。 比 如 在 使 用 “==” 这 样 两 个 等 号 连 在 一 起 的 运算 符 来 比较 两 个 数值 是 否 相 等 时 ， 会 
得 到 如 下 所 示 的 结 




















> 二 > 二 人 三 三 一 全 
Wrvue 
2 
False 











光 看 这 个 例子 也 许 还 很 难 想象 布尔 类 型 具体 的 应 用 场景 。 但 是 ， 不 仅 在 深度 学 习 领 域 ， 在 
各 种 程序 中 它 都 是 被 广泛 使 用 的 类 型 。 

Python 中 的 布尔 类 型 被 定义 为 数值 类 型 的 子 类 型 ， 布 尔 类 型 的 True 相当 于 1、False 
相当 于 0。 





>>> 1 + True 

到 

>>> 1 + False 

1 

>>> True + False 
1 
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在 实际 的 程序 中 ， 大 家 一 开始 可 能 会 不 习惯 直接 进行 数值 类 型 和 布尔 类 型 之 间 的 计算 ， 不 
过 这 种 用 法 习惯 之 后 可 以 灵活 地 用 在 代码 中 ， 所 以 还 请 先 记 住 。 





2.3.3 变量 


2.3.3.1 变量 是 什么 

进行 数值 计算 等 操作 时 ， 大 家 应 该 经 常会 碰 到 “又 得 输入 以 前 输入 过 的 内 容 ” 这 类 情 
况 。 比 如 ， 购 买 价格 分 别 为 100 元 、200 元 和 300 元 的 商品 时 ， 可 以 使 用 优惠 3% 的 优惠 
券 ， 这 时 的 合计 金额 如 下 所 示 。 














>>> (100 + 200 + 300) * (1 - 0.03) 
582.0 


这 个 计算 式 和 结果 没有 任何 问题 。 那 么 假如 优惠 券 可 以 优惠 5%， 结果 又 如 何 呢 ? 


>>> (100 + 200 + 300) * (1 - 0.05) 
570.0 


这 时 就 要 像 上 面 这 样 重新 输入 一 次 ,非常 麻 烦 。 而 且 100 + 200 + 300 这 部 分 ， 每 次 都 要 重 
新 输入 的 话 也 很 容易 出 错 。 如 果 仅 仅 是 这 人 么 几 个 字 ， 那 重新 输入 倒 也 不 是 什么 大 问题 ， 但 
是 如 果 字 数 很 多 ， 那 么 就 会 很 费时 间 。 

可 以 解决 这 个 问题 的 就 是 变量 。 在 变量 里 放 入 想 要 保留 的 值 后 ， 我 们 就 可 以 在 需要 的 
时 候 直接 使 用 这 个 值 。 下 面 看 一 下 具体 示例 。 























>>> price = 100 + 200 + 300 


>>> discount rate = 0.03 

















这 里 的 price 和 discount_rate 就 是 变量 。 我 们 可 以 用 英文 字母 、 数 字 和 “_”( 下 划 线 ) 为 
变量 命名 ， 但 是 不 能 起 像 1_price 这 样 以 数字 开头 的 名 字 。 为 了 方便 管理 程序 内 部 和 提升 
代码 可 读 性 ,一 般 的 变量 都 会 像 示 例 那样 用 “_” 来 分 隔 英 语 单词 *“。 用 “=”( 等 号 ) 可 以 


























P15 为 了 防止 变量 名 的 定义 等 因 开 发 者 不 同 而 产生 较 大 的 差异 ，Python 语言 规定 了 编码 风格 ， 开 发 者 一 般 都 
要 遵循 编码 风格 进行 开发 。Python 的 编码 风格 请 参见 https://pypi.python.org/pypi/pycodestyle。 此 外 ， 有 些 
企业 还 规定 了 自己 的 编码 风格 。 比 如 Google 就 规定 了 Google Python Style Guide ( https://google.github.io/ 
styleguide/pyguide.html )。 
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将 右边 的 值 赋 给 左边 的 变量 ， 这 样 计 算出 来 的 结果 和 直接 输入 数字 时 得 到 的 结果 是 一 样 的 。 











>>> price * (1 - discount_rate) 


SO 





另外 ， 像 下 面 这 样 给 变量 ( discount_rate ) 重新 赋值 后 ， 





>>> discount rate = 0.05 


>>> price * (1 - discount rate) 


570.0 





只 需 再 次 执行 与 有 


1 面 一 样 的 计算 式 即 可 得 到 正确 结果 。 手 动 输入 数字 时 不 容易 发 现 有 输 错 








的 地 方 ， 而 定义 了 变量 后 ， 如 果 把 price 输 错 为 pric 了 ， 程 序 就 会 像 下 面 这 样 报错 。 





>>> price * (1 - discount_rate) 


Traceback (most 


File "<stdin>" 


NameError: name 


所 以 程序 中 的 错误 


recent call last): 
， line 1, in <module> 


"price is not defined 











很 容易 就 能 被 发 现 ， 这 也 是 使 用 变量 带 来 的 好 人 处。 


2.3.3.2 ”变量 与 类 型 
Python 在 定义 变量 时 就 要 确定 变量 的 类 型 。 当 然 ， 变量 中 不 仅 可 以 代入 数值 类 型 的 值 ， 
也 可 以 代入 其 他 类 型 的 值 。 


>>> count = 1 





>>> message = "Hello!" 


过， 如 有 果 把 cou 


nt (int ) 和 message ( str ) 相 加 ， 就 会 出 现 类 型 不 一 致 的 错误 。 


>>> count + message 


Traceback (most 


File "<stdin>" 


recent call last): 


,line 1, in <module> 


mypeErrvor unsupported lopewand typel(s for nt amd str 
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因此 ， 使 用 变量 进行 开发 时 ， 需 要 注意 变量 的 类 型 。 
变量 的 类 型 取决 于 代入 的 值 ， 所 以 在 定义 变量 时 如 果 什 么 值 都 不 代入 也 会 出 现 错误 。 


>>> x 


Traceback (most recent call last): 





File "<stdin>", line 1, in <module> 
NameError: name 'x' is not defined 





因此 ， 如 果 是 数值 类 型 的 变量 ,需要 先 把 它 定 义 为 x = 0.0 等 值 。 不过， 如 有 果 一 定 要 定义 
为 “什么 值 都 没有 ”的 状态 ,那么 可 以 使 用 None。 





>>> x = None 


>S>>X 








然后 由 下 一 个 赋 给 x 的 值 来 决定 x 的 类 型 。 实 际 上 在 Python 中 ， 无论 变 量 值 是 不 是 None， 
都 可 以 向 已 定义 的 变量 代入 其 他 类 型 的 值 。 


>>> message = "Hello!" 
>>> message 

iso 

>>> message = 1.0 

>>> message 

区 





上 面 就 是 把 message 由 字符 串 类 型 ( str ) 重新 定义 为 数值 类 型 ( float ) 的 例子 。 不 过 ， 向 
已 定义 的 变量 代入 完全 不 同类 型 的 值 容易 导致 程序 发 生 错误 ， 所 以 不 推荐 这 种 做 法 。 








2.3.4 数据 结构 


2.3.4.1 列表 

通过 变量 ,我 们 就 可 以 在 程序 内 高 效 地 使 用 值 了 ,但 在 某 些 情况 下 还 是 会 有 些 麻 烦 。 
比如 要 根据 每 个 月 的 销售 额 进行 一 些 分 析 时 ， 如 果 像 下 面 这 样 用 变量 定义 每 个 月 的 数据 ， 
虽然 没有 什么 问题 ,但 是 代码 量 太 多 , 会 让 人 觉得 有 些 麻烦 。 





























je 








>>> price 1 = 50 


>>> price 2 = 25 
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>>> price 3 = 30 
>>> price 4 = 35 


所 以 我 们 希望 能 够 用 一 个 变量 来 管理 所 有 的 数据 。 
名 为 列表 (list ) 的 Python 数据 类 型 就 可 以 实现 这 个 功能 。 列 表 的 性 质 与 其 他 语言 中 数 
组 的 性 质 类 似 。 使 用 列表 后 ， 用 一 个 变量 就 能 实现 上 面 的 例子 ， 重 写 后 的 代码 如 下 所 示 。 








>>> prices = [50, 25, 30, 35] 


列表 中 的 各 元 素 可 以 用 下 面 的 方法 获得 。 


>>> prices[0] 
50 
>>> prices[1] 
25 








表示 相应 元 素 是 列表 中 第 几 个 元 素 的 数字 称 为 索引 。 需 要 注意 第 一 个 元 素 的 索引 不 是 1， 
而 是 9。 列表 中 的 值 不 仅 可 以 取出 ， 也 可 以 进行 蔡 换 。 

















>>> prices[0] = 20 
>>> prices[0] 
20 


列表 内 各 元 素 的 类 型 无 须 一 至。 男 外 ， 在 列表 中 还 可 以 艇 套 列表 。 


>>> data = [1, 'string', [True, 2.0]] 





上 面 代 码 中 的 data[2] 是 列表 ， 用 以 下 方法 可 以 进一步 取出 其 中 的 元 素 。 


>>> data[2][6] 
True 


2.3.4.2 ”字典 
我 们 通过 索引 来 获取 或 者 更 新 列表 内 的 数据 。 这 在 管理 有 顺序 的 数据 时 非常 有 用 ， 但 
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在 有 些 情况 下 ， 比 如 需要 分 析 各 区 域 的 店铺 及 其 销售 数据 时 ， 如 果 使 用 列表 ， 就 需要 记 住 
哪个 索引 代表 哪个 店铺 ， 或 者 专门 对 此 加 以 定义 。 这 样 很 容易 发 生 混乱 ， 如 果 能 用 方便 识 
别 的 标识 符 来 代替 索引 就 更 好 了 。 

可 以 实现 这 一 功能 的 就 是 字典 (dict )。 正 如 列表 相当 于 其 他 语言 的 数组 一 样 ， 字典 相 
当 于 其 他 语言 的 关联 数组 和 哈 希 ， 它 通过 键 ( key ) 和 值 ( value ) 的 组 合 来 定义 数据 。 
































>>> sales = {'tokyo': 100, 'new york': 120, 'paris': 80} 








字典 sales 有 3 个 键 'tokyo' 、'new york' 和 'paris'， 每 个 键 对 应 的 值 分 别 为 100、120 和 
80。 我们 可 以 像 下 面 这 样 访问 其 中 特定 的 某 个 元 素 。 








>>> sales['paris'] 
80 





需要 注意 的 是 ， 与 列表 不 同 , 字典 中 数据 保存 的 顺序 与 定义 时 书写 的 顺序 不 一 定 相同 。 


>>> sales 
new york -on parls 8300 tokyo oo 





可 以 看 出 这 里 的 顺序 已 经 和 定义 时 不 一 样 了 。 


2.3.5 运算 
2.3.5.1 ”运算 符 与 操作 数 

我 们 已 经 在 Python 解析 右上 进行 过 简单 的 数值 计算 了 。 严 格 来 说 ， 让 计算 机 进行 计算 
的 行为 应 该 叫 作 运算 。 下 面 看 一 下 简单 的 例子 。 





> 





这 就 是 让 计算 机 进行 了 计算 式 1 + 2 所 表示 的 运算 。 

运算 由 运算 符 (operator ) 和 操作 数 ( operand ) 构成 。 运 算 符 是 计算 式 中 使 用 的 符号 ， 
表示 进行 什么 样 的 运算 。 上 述 例子 中 的 “+” 就 是 运算 符 ， 表 示 进 行 “ 加 法 ”运算 。 而 操作 
数 则 是 运算 符 进行 计算 的 对 象 ， 例 子 中 的 1 和 2 就 是 操作 数 。 像 这 样 有 两 个 操作 数 时 ， 在 
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运算 符 左 边 的 操作 数 叫 作 左 操作 数 ， 右 边 的 叫 作 右 操作 数 。 


2.3.5.2 ”算术 运算 的 运算 符 

Python 中 可 以 像 -1 + 2 或 -3 * 4 这 样 使 用 运算 符 进 行 计 算 ， 非 常 直观 且 易 于 理解 。 用 
于 加 法 的 “+” 和 用 于 乘法 的 “*” 都 是 有 两 个 操作 数 的 典型 的 运算 符 。 不 过 ， 除 此 之 外 还 
有 其 他 的 运算 符 。 看 一 下 -1 和 -3， 这 里 面 也 用 到 了 运算 符 。 负 号 〈(- ) 是 进行 “ 反 转 正 负 ” 
运算 的 运算 符 。 

像 这 样 ， 既 有 操作 数 是 一 个 的 运算 符 ， 也 有 操作 数 是 两 个 的 运算 符 ， 前 者 叫 作 单 目 运 
算 符 ， 后 者 叫 作 双 目 运算 符 。 这 也 就 是 说 ,我 们 可 以 认为 所 有 的 算术 运算 都 由 单 目 运算 符 
和 双 目 运算 符 组 合 而 成 。 

表 2.1 是 算术 运算 中 使 用 的 具有 代表 性 的 运算 符 。 


表 2.1 具有 代表 性 的 运算 符 










































































运算 符 符号 ” 示 例 说 明 

+ +1 直接 返回 值 

- -1 反 转 值 的 正 负 

+ 1+2 加 法 计算 

- 1-2 减法 计算 

Ee 乘法 计算 

/ 172 除法 计算 

大 大 10 ** 2 窜 计 算 

% 4%3 求 余数 

// 4 /1/ 3 返回 除法 计算 结果 的 整数 部 分 ( 舍 去 小 数 部 分 的 除法 ) 








2.3.5.3 ”赋值 运算 符 
向 变量 赋值 时 使 用 的 “=” 是 “把 右 操 作 数 的 值 赋 给 左 操 作 数 ”的 赋值 运算 符 。 当 然 也 
可 以 把 包含 变量 的 表达 式 赋 给 新 变量 。 




















>>>a=1 

>>> B= 2 
>>>c=a+b+1 
>>> C 
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这 段 代码 把 右 操作 数 a + b + 1 的 值 赋 给 了 左 操作 数 c。 但 是 ， 赋 值 运算 符 只 是 用 右 操作 数 的 
值 进行 赋值 ， 所 以 即使 像 下 面 这 样 修改 了 表达 式 内 使 用 的 变量 a 的 值 ，< 的 值 也 不 会 改变 。 








> 

= 

4 

这 点 需要 大 家 注意 。 


如 果 大 家 理解 了 赋值 运算 符 “=” 的 含义 ， 应 该 可 以 知道 下 面 这 样 的 用 法 也 没有 问题 。 





>>> d 


>>> d 


d+1 


>>> d 


这 种 把 原 变 量 与 其 他 值 运算 后 得 到 的 值 重新 赋值 给 原 变 量 的 做 法 ， 在 深度 学 习 以 外 的 程序 
中 也 很 常见 。 

在 向 同一 个 变量 重新 赋值 时 ， 如 果 变量 名 是 像 上 面 d = d + 1 这 样 比较 短 的 ， 写 起 来 
还 比较 容易 ， 但 如 果 是 像 下 面 这 样 很 长 的 ， 写 起 来 就 很 麻烦 了 。 

















>>> very_very_long variable name = very_ very_ long variable name + 1 

















这 时 可 以 使 用 复合 赋值 运算 符 一 一 这 是 像 下 面 这 样 ， 四 则 运算 的 运算 符 与 赋值 运算 符 连 在 
一 起 的 符号 。 





>>> d += 1 


意思 与 d = d + 1 完全 相同 。 当 然 也 有 与 其 他 四 则 运算 连用 的 复合 赋值 运算 符 。 
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Sx ds 








这 样 程序 整体 就 变 得 更 简洁 了 。 
2.3.6 ”基本 结构 


2.3.6.1 if 语句 
用 Python 写 的 程序 是 按照 书写 顺序 从 上 至 下 执行 的 ， 所 以 如 果 不 做 任何 特殊 处 理 ， 程 
序 就 只 会 按照 事先 确定 好 的 内 容 执行 。 但 在 实际 开发 中 ,我 们 经 常会 碰 到 某 个 条 件 满足 时 











a= 10 


>: 


ma 





这 段 代 码 会 输出 a > 1。 不 等 号 “>” 是 在 左边 的 值 比 右 边 的 值 大 时 返回 True， 和 否则 返回 
False 的 关系 运算 符 。 就 像 这 样 ， 在 if 语句 中 “条 件 表达 式 ” 为 True 时 ， 其 中 的 “处 理 A” 
就 会 被 执行 。 


Lf A 
处 理 A 


把 例子 中 的 代码 改 为 a = -18 后 再 执行 ， 就 会 发 现 什 么 输出 都 没有 了 。 那 么 ， 要 想 在 a > 1 
时 沿用 现在 的 处 理 ， 其 他 条 件 时 则 进行 其 他 处 理 又 该 怎么 做 呢 ? 这 时 可 以 像 下 面 这 样 使 用 


else 语句 。 








a= -10 


> 
DaEE> 和 有) 
else: 


print("a <= 1") 


执行 这 段 代码 可 以 得 到 a <= 1。 这 种 写法 意味 着 在 a > 1 之 外 的 所 有 情况 下 都 执行 else 内 
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的 处 理 。 如 果 除 了 a > 1 之 外 , 还 想 在 其 他 条 件 ， 比 如 a > -1 时 也 做 一 些 处 理 ， 那 么 可 以 
使 用 由 else 和 if 组 合 而 成 的 elif 语句 。 





a= 0 


z 
a 5 


BlintGuae > 
elif a > -1: 


printGel > > 











这 段 代 码 的 输出 是 1 >= a > -1。 需要 注意 的 一 点 是 ,假如 这 里 让 a = 2， 那 么 只 会 输出 
a > 1。 虽 然 a = 2 也 满足 elif 里 a > -1 的 条 件 ， 但 是 由 于 先 匹配 了 if 语句 的 条 件 ， 所 以 
不 会 执行 elif 内 的 处 理 。 

elif 还 可 以 和 其 他 的 elif 或 else 组 合 使 用 。 





a = -2 


fa > 

[UNRCSSEE 
elif a > -1: 

porunt@ > a > ) 
elif a > -3: 

print("-1 >= a > -3") 
else: 


print("a <= -3") 





这 上段 代码 里 匹配 的 是 第 二 个 elif， 所 以 输出 -1 >= a > -3。 
2.3.6.2 ”while 语句 

if 语句 在 条 件 表达 式 为 True 时 只 会 进行 一 次 处 理 。 与 此 相对 ， 只 要 满足 条 件 就 会 重复 
进行 处 理 的 是 while 语句 。 它 的 写法 和 if 语句 相同 。 





while 条 件 表 达 式 : 
处 理 A 


我 们 来 看 一 下 例子 。 
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a = 5 
while a > 0: 


prant(an 00a 


a -= 1 


执行 结果 如 下 所 示 。 


oo ET RU GO) 
ll 
一 Du 上 m 


也 就 是 说 ， 在 while 语句 中 ， 程 序 会 在 处 理 结 束 后 再 次 检查 条 件 表达 式 ， 然 后 重复 执行 处 
理 ， 直 到 条 件 表达 式 为 False 为 止 。 这 里 要 注意 的 是 ， 在 实现 时 我 们 必须 要 保证 条 件 表达 
式 能 够 ( 在 将 来 的 某 个 时 候 ) 变 为 False， 和 否则 while 语句 就 会 陷入 永远 都 不 会 结束 的 无 限 
循环 中 。 拿 上 面 的 例子 来 说 ， 如 果 忘 记 写 a -= 1， 那么 输出 将 一 直 是 a = 5,， 程序 永远 也 不 
会 从 while 语句 中 退出 来 了 。 这 里 还 有 一 个 办 法 ， 那 就 是 在 处 理 中 写 break， 从 而 强制 退出 
循环 。 

















while a > 0: 
print("a =", a) 


a -= 1 


if a == 4: 


break 


执行 这 段 代码 会 得 到 下 面 的 结 








可 以 看 到 , 在 a == 4 时 程序 通过 break 语句 退出 了 while 循环 。 
while 语句 也 可 以 搭配 else 语句 ， 当 while 的 条 件 表达 式 为 False 时 执行 else 语句 。 














2.3 ”Python 的 基础 知识 | 041 





while a > 0: 
print("a =", a) 
a -= 1 
else: 
print("end of while”") 


执行 这 段 代码 会 得 到 下 面 的 结 


所 
4 
3 
吧 
由 


ao ovo DOD ov 
ll 


end of while 


2.3.6.3 for 语句 


while 语句 会 在 条 件 满足 的 情况 下 重复 执行 处 理 ， 与 此 相对 ， 





数 循环 处 理 的 是 for 语句 。for 语句 的 循环 多 与 列表 组 合 使 用 。 


datae = 0 1 2 | 


omxn dater 


print(x, end=' ') 


执行 结果 如 下 所 示 。 


O20 34 





下 面 是 for 语句 的 基本 形式 。 


for 变量 名 in 列表 : 


处 理 





和 while 语句 一 样 ，for 语句 中 磁 到 break 也 会 强制 退出 循环 。 














能 根据 事先 决定 好 的 次 
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[Eee 证 三 可 | 以 2 2 | 


for x in data: 


print(x, end=' ') 


if x == 1: 


break 


上 面 代码 的 执行 结果 如 下 所 示 。 


另外 ， 也 可 以 对 字典 使 用 for 语句 。 


data = {'tokyo': 1, new york': 2} 


for xeinmn dates 


print(x) 


像 这 样 用 for 的 基本 形式 写 好 并 执行 后 ， 绪 有 果 如 下 所 示 。 





tokyo 


new york 











可 以 看 出 变量 里 存 的 是 键 。 如 果 想 让 键 和 值 都 作为 变量 来 处 理 , 需 要 在 字典 后 写 上 “.items()”。 


data = {'tokyo': 1, 'new york': 2} 
for key, value in data.items(): 


print(key, end=": ) 


print(value) 


执行 代码 ， 可 查看 如 下 结果 。 


tokyo: 1 


new york: 2 
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2.3.7 函数 


有 了 变量 之 后 ,我 们 就 不 用 重复 写 同样 的 值 ， 而 是 在 需要 的 时 候 直 接 调用 变量 即 可 。 
同样 的 做 法 从 值 扩 展 到 “处 理 ”， 那 就 是 函数 了 。 大 家 把 它 想象 为 数学 中 的 函数 也 许 会 更 容 
易 理 解 。 假 如 我 们 需要 输出 抛物 线 y = f(x) =x 在 x=1,2,3 时 的 值 ， 如 果 不 使 用 函数 ， 写 
出 的 代码 应 该 是 这 样 的 。 



































DTECUE 2 
[IE 
[DTELCS 02) 





使 用 函数 之 后 的 代码 则 是 这 样 的 。 





def T(x 
Pieumit(C00 2 
f(1) 
f(2) 
ED 



































通过 定义 函数 f(x)， 把 “接收 x， 输 出 f(x) 的 值 ” 这 个 通用 的 处 理 整合 到 一 起 。 这 里 的 x 
称 为 参数 。Python 也 数 的 语法 如 下 所 示 。 





def 也 数 名 ( 参数 ): 
处 理 





调用 函数 时 的 写法 是 “函数 名 ( 值 )”， 例 如 f(1)。 
上 面 的 例子 只 是 把 接收 到 的 参数 处 理 (平方 ) 之 后 print 出 来 ， 所 以 如 果 像 下 面 这 样 
以 数学 表达 式 的 写法 来 写 ， 











TCD 


就 会 出 现 如 下 错误 。 


TypeError: unsupported operand type(s) for +: 'NoneType' and 'NoneType’ 
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要 想 避 免 这 个 错误 发 生 ， 需 要 将 函数 f 写成 “返回 计算 后 的 值 ” 的 形式 。 可 以 实现 这 个 功 
能 的 就 是 return。 下 面 是 修改 后 的 函数 f， 可 以 返回 计算 结果 ， 而 非 输出 。 











def f(x): 
neturnixe**2 


[eumitl (GH ef 





函数 返回 的 值 称 为 返回 值 。 当 然 也 可 以 像 a = f(1) + f(2) 这 样 ， 把 返回 值 赋 给 其 他 变量 。 
没有 return 的 函数 也 就 “没有 返回 值 ”， 即 返回 None， 所 以 刚才 的 错误 就 是 因为 要 执 
行 None + None 而 发 生 的 。 
参数 和 返回 值 不 限于 一 个 ， 可 以 取 任 意 多 个 。 刚 才 举 的 例子 是 y = x*， 现 在 我 们 来 
思考 一 下 y = f(x) = ax*。 其 中 要 让 系数 a 也 可 以 自由 设置 并且 除 了 f(x) 之 外 还 要 返回 
f(x) = 2ax 的 值 。 











def f(x, a): 


Peturmnlan .0 27 2x 
Vyipeimee fh 


print(y) 
print(y_prime) 


如 上 所 示 ， 只 要 将 多 个 参数 和 返回 值 排列 在 一 起 即 可 。 
另外 ， 参 数 还 可 以 设置 默认 值 。 调 用 函数 时 ， 例 如 对 于 上 面 的 f(x，a) 函数 调用 f(1) 
时 ， 程 序 会 因为 参数 个 数 不 一 致 而 报错 。 





TypeError: f() missing 1 required positional argument: "al' 


不 过 如 果 像 下 面 这 样 ， 事 先 让 f 的 参数 a=2， 那 么 调用 f(1) 时 也 可 以 得 到 调用 f(1，2) 时 
的 结果 。 





def f(x, a=2): 


netunnlan .> 0 
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y, y_prime = f(1) 


print(y) 
print(y_prime) 











使 用 函数 就 能 把 程序 中 需要 重复 的 处 理 整 合 到 一 起 ， 进 而 减少 整体 的 代码 量 ， 让 代码 
看 起 来 更 简洁 。 虽 然 前 面 举 的 例子 都 比较 简单 ， 但 不 管 多 么 复杂 的 处 理 ， 只 要 尽量 把 其 中 
通用 的 处 理 整 合 为 函数 ， 就 能 更 加 高 效 地 实现 它们 。 


























2.3.8 类 





























通过 把 通用 的 值 定义 为 变量 、 通 用 的 处 理 定义 为 函数 ,我们 已 经 能 够 去 掉 重 复 的 代码 。 
不 只 是 Python， 在 任何 编程 语言 中 ， 是 否 能 够 整合 通用 的 部 分 ， 以 及 如 何 整 合 都 是 很 重要 
的 问题 。 但 是 ， 只 是 做 到 这 一 点 还 不 够 。 比 如 我 们 想 对 同属 一 个 行业 的 两 家 企业 A 和 B 进 
行 简单 的 经 营 分 析 ， 具体 情 况 如 下 所 示 。 












































@ 已 知 销售 额 ( sales )、 成 本 (cost )、 员 工 数 (persons ) 
@ 想 知 道 利润 (= 销售 额 -成 本 ) 是 多 少 





简单 实现 该 分 析 的 方法 如 下 所 示 。 


company_A = {'sales': 100, 'cost': 80, 'persons': 10} 
company_B = {'sales': 40, 'cost': 60, 'persons': 20} 


def get_profit(sales, cost): 


return sales - cost 


profit A = get_ profit(company_A['sales'], company_A['cost']) 
profit B = get_ profit(company_B['sales'], company_B['cost']) 


先 定义 用 于 保存 企业 数据 的 字典 company_A 和 company_B， 再 定义 用 于 计算 利润 的 函数 get_ 
profit(sales，cost)， 然 后 就 可 以 得 出 企业 A 和 企业 B (或 其 他 任何 企业 ) 的 利润 了 。 

这 样 实现 当然 没有 错 ， 但 如 果 企 业 的 数量 不 断 增 加 ， 比 如 还 要 分 析 企 业 C 和 企业 D 等 
的 情况 时 ， 就 不 得 不 重复 编写 下 面 这 样 的 处 理 了 。 这 会 非常 麻烦 ， 而 且 变量 也 要 一 个 一 个 
地 去 定义 。 
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profit X = get_ profit(company_X['sales'], company_X['cost']) 











可 以 解决 这 个 问题 的 就 是 类 。 使 用 类 就 可 以 把 上 面 例 子 中 的 “企业 ”这 一 通用 部 分 提 
取出 来 。 首 先 , 我 们 来 看 看 如 何 定 义 代表 了 企业 A 和 企业 B 的 类 。 











class Company: 
defr init (self, sales, cost persons): 
self.sales = sales 
self.cost = cost 


self.persons = persons 


def "get protfit(self): 
return self.sales - self.cost 


company_A = Company(100, 80, 10) 
company_B = Company(40, 60, 20) 





细节 部 分 后 面 再 介绍 ， 先 来 看 一 下 整体 的 结构 。 可 以 看 出 类 就 是 函数 的 集合 ， 不 过 类 中 的 
函数 叫 作 方法 ， 所 以 类 的 写法 如 下 所 示 ”6。 


class ke 
def 方法 A(self， 参 数 A): 
处 理 A 


def 方法 B(self， 参 数 B): 
处 理 B 


Company 类 有 两 个 方法 ， 其 中 get_profit 与 前 面 讲 过 的 函数 ( 几乎 ) 相同 ,那么 另外 
一 个 _ init 是 做 什么 的 呢 ? 类 的 本 质 是 通用 的 值 或 处 理 的 集合 ， 所 以 仅 定义 类 的 话 ， 它 
依然 是 抽象 的 存在 ， 只 要 不 具体 化 ， 就 不 会 生成 实际 要 处 理 的 数据 。 比 如 Company 类 中 的 
以 下 特性 是 通用 的 ， 可 以 抽象 地 定义 出 来 。 






























































>16 本 书 不 涉及 类 方法 或 静态 方法 等 不 需要 self 参数 的 方法 ， 只 涉及 需要 self 参数 的 一 般 的 方法 。 
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@ 保存 了 销售 额 ( sales )、 成 本 (cost )、 员 工 数 ( persons ) 的 数据 
@ 能 够 根据 销售 额 - 成 本 计算 利润 








但 是 ， 如 果 要 使 用 企业 A 和 企业 B 的 实际 数据 ， 就 还 需要 在 通用 部 分 套用 具体 的 数值 。 这 
种 根据 类 实际 生成 的 具体 数据 ( company_A、company_B ) 叫 作 实例 ， 而 执行 生成 实例 所 需 
处 理 的 就 是 _init _， 这 叫 作 构造 方法 。 也 就 是 说 ,在 生成 实例 时 ， 值 会 被 当 作 参 数 传 给 
_init _ ， 然 后 自动 进行 初始 化 处 理 。 

构造 方法 内 的 self.sales、self.cost、self.persons 是 实例 变量 ， 这 些 就 是 每 个 实例 
中 对 应 “通用 特性 ”的 具体 值 。self 指 的 是 实例 本 身 ， 比 如 self.sales 就 可 以 理解 为 “ 实 
例 本 身 的 sales 的 值 ”。 由 于 任何 方法 都 可 以 访问 实例 变量 ， 所 以 get_profit 的 参数 中 不 需 
要 定义 sales 和 cost。 

我 们 可 以 通过 “实例 . 变量 名 ”以 及 “实例 , 方法 名 ()” 从 已 定义 (实例 化 ) 的 实例 访问 
各 自 的 实例 变量 和 方法 。 因 为 company_A 是 实例 ， 所 以 执行 下 面 这 段 代 码 ， 










































































print(company_A.sales) 


print(company_A.get_profit()) 


可 以 得 到 以 下 结果 。 


100 
20 

















此 外 ， 值 的 更 新 也 可 以 通过 实例 进行 。 


company_A.sales = 80 


print(company_A.sales) 


可 以 看 到 ， 值 确实 被 修改 了 。 


80 




















二 





使 用 类 ， 就 能 把 通用 的 代码 依次 抽取 出 来 ， 不 过 重要 的 还 是 “如 何 去 定 义 类 "。 如 果 定 
义 了 一 个 巨大 的 类 ， 那 就 和 不 使 用 类 的 实现 没什么 区 别 了 。 类 是 “最 小 组 成 单位 的 设计 说 
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明 书 "， 所 以 我 们 应 该 把 类 进行 分 制 ， 尽 可 能 地 压缩 每 个 类 的 功能 ， 只 有 在 需要 这 个 最 低 限 
度 的 功能 时 才 生 成 实例 。 在 深度 学 习 的 模型 中 也 一 样 ， 如 果 能 很 好 地 把 通用 部 分 抽取 为 类 ， 
就 可 以 让 实现 更 有 效率 。 




















2.3.9 库 


前 文 讲解 了 Python 的 基础 知识 ， 并且 多 次 强调 了 把 通用 的 处 理 抽取 为 函数 或 类 对 于 高 
效 实现 的 重要 性 。 而 库 就 是 让 我 们 能 够 以 更 加 通用 的 形式 来 调用 水 数 或 类 的 存在 。 

比如 ， 数 学 中 具有 代表 性 的 函数 就 被 集中 定义 在 math 库 里 。 在 我 们 需要 用 到 三 角 函 数 
或 指数 函数 时 ， 如 果 不 使 用 库 ， 就 需要 自己 去 实现 sin(x) 和 cos(x)， 而 如 果 使 用 库 ， 只 需 如 
下 调用 即 可 。 






































>>> import math 
>>> math.sin(0) 
0 





在 使 用 库 时 ， 需 要 像 上 面 那 样 以 “import 库 名 ”的 形式 来 写 ， 或 者 也 可 以 像 下 面 这 样 写 成 
“import 库 名 as 别名 ”的 形式 。 








>>> import math as m 


>>> m.sin(0) 


这 样 写 可 以 用 别名 来 代替 库 名 ， 在 库 名 较 长 时 很 方便 。 
另外 还 有 一 种 调用 库 的 方法 。 


>>> from math import sin 


>>> sin(0) 

















以 “from 库 名 import 方 法 名 ”的 形式 ， 可 以 直接 写 上 方法 名 。 上 面 代码 里 写 的 是 import sin， 
所 以 只 能 用 sin 方法 ， 但 如 果 像 下 面 这 样 在 import 后 连续 写 多 个 方法 名 ， 就 可 以 调用 其 他 
想 要 使 用 的 方法 了 。 











>>> from math import sin, cos 


>>> sin(0) + cos(0) 
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想 要 导入 库 提供 的 所 有 方法 时 ， 可 以 像 下 面 这 样 使 用 通配符 (*)。 





>>> from math import * 





Python 的 基础 知识 就 介绍 到 这 里 。 前 面 也 说 过 ， 这 里 介绍 的 只 是 关于 Python 我 们 需要 
了 解 的 最 基础 的 内 容 。 对 于 没有 介绍 到 的 内 容 ， 大 家 可 以 自行 参考 Python 官网 上 的 文档 教 
程 ， 或 许 还 能 进一步 加 深 对 Python 的 理解 。 


NumPy 


Python 中 有 很 多 易 用 的 库 ， 其 中 NumPy 库 更 是 在 进行 数值 计算 和 科学 计算 时 不 可 或 
缺 的 存在 。 特 别 是 在 深度 学 习 领 域 中 频繁 使 用 的 线性 代数 的 实现 和 运算 上 , 使 用 NumPy 能 
够 事半功倍 。 接 下 来 我 们 从 基础 知识 开始 详细 地 了 解 NumPy 的 用 法 ,掌握 把 表达 式 变 为 代 
码 的 方法 。 

如 果 已 经 安装 了 Anaconda， 那么 NumPy 也 应 该 一 起 被 安装 了 。 请 先 写 下 下 面 这 行 代码 。 








import numpy as np 
后 面 讲解 时 这 行 代码 会 省 略 ， 不 再 袭 述 。 
2.4.1 NumPy 数组 
Python 中 有 一 种 名 为 列表 的 数据 类 型 。 假 设 我 们 定义 了 如 下 列表 。 


>>> a = [1, 2, 3] 








这 个 列表 是 3 个 数字 的 排列 ， 可 以 看 作 “ 三 维 向 量 "。 同 理 ， 下 面 的 列表 可 以 看 作 2 x 3 矩阵 。 


>>>°B = E455 0 /3.09 








也 就 是 说 ， 想 要 处 理 向 量 和 矩阵 时 ， 可 以 移 定 义 与 其 形式 相对 应 的 列表 (数组 )， 然 后 再 进 
行 计算 。 
当然 也 可 以 直接 使 用 列表 来 计算 ,但 是 用 列表 进行 线性 代数 运算 很 麻烦 。 比 如 下 面 这 
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个 例子 。 


>>> I = [[1，6]，[0，1]] 
>>> C = [[1, 2], [3, 4]] 
































因为 ( 想 要 ) 定义 的 是 单位 矩阵 T 和 和 矩 阵 C， 所 以 在 计算 I+C 的 和 时 ,理想 的 结果 是 得 到 
由 各 个 元 素 之 和 组 成 的 矩阵 ( 列表 )。 但 实际 计算 后 发 现 返回 的 结果 竟然 只 是 将 列表 连接 了 
起 来 。 





> 


Es Wi ls ts a 2 ls 2 




















如 果真 的 要 计算 和 ， 要 么 通过 for 语句 等 分 别 计算 各 元 素 的 和 ， 要 人 么 考虑 定义 matrix_add() 
函数 ， 通 过 matrix_add(I，C) 进行 计算 。 只 是 这 两 种 方式 都 不 够 直观 。 

而 如 果 使 用 NumPy， 就 能 够 以 “表达 式 所 见 即 所 得 ”的 方式 实现 大 多 数 情况 。NumPy 
用 于 计算 的 不 是 列表 ， 而 是 名 为 NumPy 数组 的 专用 对 象 。 虽 然 听 上 去 有 些 复 杂 ， 但 实际 
上 创建 数组 非常 简单 ， 像 下 面 这 样 向 np.array() 提供 一 个 列表 参数 即 可 。 






































>>> I = np.array([[1，6]，[6，1]]) 
>>> C = np.array([[1，2]，[3，4]]) 


我 们 来 看 一 下 I 和 Cc。 


> 
armmay( oe 
Iw; Wy 
> 
alaray/G le 
BD 








可 以 看 到 显示 的 类 型 是 array， 的 确 与 列表 不 同 。 使 用 数组 就 可 以 像 下 面 这 样 直 观 地 进行 
计算 了 。 








Se 用 
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aay( ID le 


像 这 术 





倍 。 在 深度 学 习 领 域 经 常会 出 现 矩 阵 和 疝 量 的 计算 ， 所 以 对 NumPy 数组 的 理解 和 使 用 也 是 


[3 3511) 


灵活 地 使 用 NumPy 数组 ， 就 能 在 实现 包括 线性 代数 在 内 的 所 有 数值 计算 时 事 半 功 








必 不 可 少 的 。 


2.4.2 使 用 NumPy 进行 向 量 和 和 矩阵 的 计算 








使 用 NumPy， 不 仪 可 以 进行 向 量 之 间 、 甜 阵 之 间 的 四 则 运算 ,还 可 以 简化 在 第 1 章 出 














现 过 的 计算 。 马 上 来 看 一 下 例子 吧 。 首 先是 向 量 和 与 标量 倍数 的 计算 。 


>>> a = np.array([1, 2, 3]) 


>>> b = np.array([-3, -2, -1]) 


>>> a + b 
acayqlE2 OZ 
= ERES 


anraygle on) 





至 于 乘积 ， 直 接 写 a*b 就 能 得 到 向 量 的 元 素 积 。 





> > > 


array([-3, -4, -3]) 


与 此 相对 ， 如 果 要 计算 内 积 ， 则 使 用 np.dot()。 





>>> np.dot(a, b) 


-10 


和 矩阵 的 计算 方法 与 向 量 相同 。 


>>> A = np.array([[1，2，3]，[4，5，6]]) 
>>> B = np.array([[-3, -2, -1], [-6, -5, -4]]) 
>>>A+B 


anray 2 ORG 


E20 


S23 
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araydll[ Si GT 和 3 中 民 
[2 se Tel 








NumPy 中 矩阵 的 “乘积 ”和 向 量 一 样 ， 结 果 是 由 各 元 素 简 单 相 乘 的 值 组 成 的 元 素 积 。 


>>>A*B 
array([[ -3, -4, -3], 
[-24, -25, -24]]) 


而 数学 中 的 和 矩阵 乘积 实际 则 由 各 个 矩阵 中 行 向 量 和 列 向 量 的 内 积 组 成 。 所 以 在 计算 矩阵 乘 
积 时 ， 需 要 使 用 np.dot()。 不 过 上 述 例子 中 的 A 和 B 都 是 2x3 算 阵 ， 所 以 直接 计算 它们 
的 乘积 会 出 现 错误 。 








>>> np.dot(A, B) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: shapes (2,3) and (2,3) not aligned: 3 (dim 1) != 2 (dim 0) 





可 以 计算 矩阵 4 的 转 置 矩 阵 和 和 矩阵 如 的 乘积 。 求 转 置 矩阵 的 写法 是 A.T。 


这 二 > 人 ET 
array([[1, 4], 
[2 Sd 
Bre 
>>> np.dot(A.T, B) 
array([[-27, -22, -17], 
[E36 20 22 
[-45, -36, -27]]) 





NumPy 的 向 量 (一 维 数 组 ) 中 ,， 行 向 量 和 列 向 量 是 没有 区 别 的 。 例 如 下 面 这 个 例子 ，4 
是 2x2 和 矩阵 ,2 是 2x1 向 量 ， 数 学 上 可 以 计算 42， 却 不 能 计算 5p4， 需 要 转 为 p14 才能 


计算 。 
i 记 2 | 
A= Ee | b= 四 (2.1) 


我 们 当然 可 以 严格 按照 数学 上 的 表达 式 来 进行 计算 。 
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>>> A = np.array([[1，2]，[3，4]]) 
>>> b = np.array([-1, -2]) 

>>> np.dot(A, b) 

alnaMg Sree lin 


>>> np.dot(b.T, A) 
array([ -7, -10]) 


但 是 由 于 行 向 量 和 列 向 量 没 有 区 别 ， 所 以 可 以 直接 进行 以 下 计算 ， 而 不 需要 进行 b.T。 




















>>> np.dot(b，A) 
array([ -7, -10]) 





在 深度 学 习 中 ， 像 这 样 计 算 和 矩阵 和 向 量 乘积 的 情况 有 很 多 ， 不 要 被 搞 糊 涂 了 。 





2.4.3 数组 和 多 维 数 组 的 生成 


NumPy 有 多 个 用 于 数组 初始 化 的 方法 。 通 过 这 些 方法 ,我 们 可 以 做 很 多 处 理 ， 诸 如 先 
创建 一 个 所 有 元 素 都 是 0 的 向 量 (数组 )， 之 后 再 更 新 特定 位 置 的 元 素 值 等 。 典 型 的 初始 化 
方法 有 np.zeros() 和 np.ones()， 前 者 可 以 生成 所 有 元 素 都 是 0 的 数组 (向量)， 后 者 可 以 
生成 所 有 元 素 都 是 1 的 数组 (向量 )。 





























>>> np.zeros(4) 
a (lO OO 
>>> np.ones(4) 
alnnay a le 








当然 ， 这 里 生成 的 是 普通 的 NumPy 数组 ， 所 以 可 以 计算 数组 的 标量 倍数 。 














>>> np.ones(4) * 2 
aiEESMY IE 2 2 


另外 , 用 np.arange() 可 以 生成 具有 一 定 范围 的 数组 。 


>>> np.arange(4) 
aeay(OR ER 23 站 
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像 这 样 只 有 一 个 参数 时 ， 会 生成 一 个 从 8 开始 到 ( 收 到 的 参数 值 - 1 ) 为 止 ， 每 个 元 素 值 都 是 
前 一 个 元 素 值 加 1 的 数组 。 如 果 有 两 个 参数 ， 则 可 以 确定 数组 最 开始 的 值 和 最 后 的 值 。 


>>> np.arange(4, 10) 
aaray(dR 5 677 SEO 上 


如 果 参 数 再 增加 一 个 ， 就 可 以 像 下 面 这 样 ， 将 值 的 间隔 设置 为 1 以 外 的 数值 。 





>>> np.arange(4, 10, 3) 
array([4, 7]) 








灵活 使 用 NumPy 的 方法 ,不仅 可 以 简化 向 量 (一 维 数组 ) 的 初始 化 ， 还 可 以 简化 矩 
阵 (多 维 数组 ) 的 初始 化 。 例 如 想 生 成 一 个 2 x3 的 零 矩 阵 时 ， 就 可 以 向 下 面 这 样 使 用 
np.reshape() 把 一 维 数组 变形 为 多 维 数组 。 





>>> np.zeros(6).reshape(2, 3) 
alnnayell Oe 0 
[Wey Wo Wolly 


NumPy 也 有 直接 生成 矩阵 的 方法 。 例 如 使 用 np.identity() 就 可 以 生成 正方 矩阵 。 





>>> np.identity(3) 

aniaymelE OORII 
[Oe Tl 
LE Ge Gas, Way 


2.4.4 切片 


在 NumPy 中 ,获取 数组 中 的 各 元 素 或 者 部 分 数组 也 是 很 简单 的 ， 基 本 上 用 与 普通 列表 
相同 的 方式 就 能 实现 。 























>>> a = np.arange(10) 
>>> a[0] 

0 

>>> a[-1] 

9 


2.4 








获取 部 分 数组 的 写法 是 “a[ 最 开始 的 索引 : 最 后 的 索引 +1]”。 


>>> a[1:5] 
erren ly, 2 ey Cl) 





如 果 像 下 面 这 样 只 写 最 开始 的 索引 ， 返 回 的 就 是 包括 了 剩余 所 有 元 素 的 部 分 数组 。 





>>> a[5:] 
ERIEENGLLS (oe ve 3 el) 


与 之 相反 ， 也 可 以 像 下 面 这 样 省 略 最 开始 的 索引 ， 这 相当 于 将 最 开始 的 索引 写 为 0。 





>>> a[:5] 
BEE a 


此 外 ，NumPy 还 支持 一 种 叫 作 切 片 〈slice ) 的 操作 ， 可 以 更 灵活 地 获取 元 素 。 


邮 
>>> 汪 ai 5 2 
almrawAle sD 











像 上 面 这 样 指定 第 三 个 参数 后 ， 就 可 以 变更 获取 元 素 的 间隔 ( 与 np.arange() 的 参数 相 


同 )。 应 用 这 个 特性 ， 就 可 以 像 下 面 这 样 得 到 与 原来 的 数组 顺序 相反 的 数组 。 





>>> a[::-1] 
[IEC 人 人 IE) 60 7 0 S04 2 





上 面 看 的 都 是 一 维 数组 的 例子 ，NumPy 也 支持 对 多 维 数组 进行 同样 的 操作 。 





>>> B = np.arange(1, 7).reshape(2, 3) 
>>> B 
lM 2 

[2 So (0 








这 时 由 于 8B 是 二 维 的， 所 以 下 面 的 操作 得 到 的 是 与 原 数 组 相同 的 数组 。 
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>>> B[:2] 
alnmavill 2 
a 3 (oly) 











男 外 ， 通 过 下 面 的 代码 可 以 获取 各 子 数 组 的 元 素 。 














>>> B[:2, 0] 
anrayGli A 





第 二 个 值 表示 的 是 要 获取 BL:2] 数组 的 第 几 个 元 素 ， 奉 把 代码 中 的 6 替换 为 切片 操作 ， 会 
得 到 如 下 结果 。 





>>> B[:2, ::-1] 
annavllS 2 
I@» 3 ly 























获取 数组 元 素 的 代码 可 能 不 太 容 易 理 解 ， 尤 其 是 在 多 维 数组 的 情况 下 ， 但 熟练 掌握 之 后 可 
有 助 于 减少 代码 量 ， 进 而 提升 程序 的 处 理 速 度 ， 所 以 请 务必 灵活 应 用 它 。 


2.4.5 广播 
在 NumPy 中 ， 可 以 直接 计算 数组 之 间 的 和 与 积 。 





>>> a = np.array([1, 2, 3]) 
>>> b = np.array([4, 5, 6]) 
>>>a+b 

人 aay see 

>>>a*b 


anmayin lo 











但 这 有 一 个 默认 的 前 提 ， 即 各 个 数组 的 大 小 是 相同 的 。 那 么 ， 大 小 不 同 的 情况 该 如 何 
处 理 呢 ? 在 NumPy 中 ， 大 小 不 同 的 数组 之 间 也 可 以 进行 计算 ,使 用 的 方法 叫 作 广播 
( broadcasting )。 最 简单 的 例子 就 是 数组 和 标量 的 计算 。 








>>>a 


np.array([1, 2, 3]) 
2 


>>> b 
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Ss2> A+ 
aaay[Ie 4 ES 从 
过 23 RD 


alray 2 4 


我 们 可 以 把 它 看 作 把 标量 b 扩展 到 与 数组 a 相同 的 大 小 之 后 再 进行 的 计算 。 
维度 增加 了 也 没关系 ,同样 可 以 得 到 结 











>>> a = np.array([[1, 2], [3, 4]]) 
S22 于 省 
>>> a + b 
a 
[号 





如 果 维 度 小 的 一 方 是 数组 ， 也 可 以 根据 维度 大 的 一 方 来 调整 大 小 ， 然 后 再 进行 计算 。 


>>> C = np.array([5, 6]) 
a 
aaay 人 mi GESiE 

ea ly 





以 上 就 是 有 关 广 播 的 基础 知识 ， 应 用 这 个 功能 ， 就 可 以 轻松 计算 向 量 的 外 积 等 。 例 如 ， 
使 用 np.newaxis 就 可 以 把 原来 的 数组 由 行 向 量 转 成 对 应 的 列 向 量 。 





>>> a = np.array([1, 2, 3]) 
>>> a[:, np.newaxis] 
almay uns 

[25 

民 BD 


这 样 处 理 之 后 ， 就 可 以 计算 外 积 了 ”17。 





>>> a[:, np.newaxis] * a 
aurnayl 2 3 

已 4 

3s @» © 


P17 不 过 ,向 量 的 外 积 也 可 以 通过 np.outer() 求 得 。 
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这 里 的 乘法 运算 得 到 的 是 外 积 ， 而 减法 运算 能 够 得 到 所 有 元 素 的 组 合 的 差 。 有 了 广播 机 制 
后 ， 可 以 很 方便 地 进行 各 种 计算 。 


面向 深度 学 习 的 库 

到 目前 为 止 ， 我 们 学 习 了 Python 的 基础 知识 ， 以 及 可 以 高 效 进行 线性 代数 等 数值 计算 
的 NumPy 库 的 用 法 。 从 下 一 童 开始 我 们 将 了 解 深度 学 习 的 基础 结构 一 一 神经 网 络 的 理论 和 
实现 。 作 为 在 此 之 前 的 最 后 一 个 准备 ， 本 节 我 们 来 设置 一 下 面向 深度 学 习 的 库 吧 。 至 于 库 
具体 的 使 用 方法 ,我 们 将 在 下 一 章 通 过 实际 的 实现 来 了 解 。 




















2.5.1 TensorFlow 





TensorFlow* 1， ”1 是 在 2015 年 11 月 由 谷歌 开源 的 库 ， 多 用 于 神经 网 络 ( 深度 学 习 )， 
但 也 可 用 于 其 他 算法 。 它 主要 有 以 下 3 个 优点 。 


e@ 能 够 按照 数学 表达 式 实 现 模型 ， 因 此 可 以 直观 地 编写 代码 
@ 对 部 分 模型 实现 了 本 数 化 ， 不 需要 编写 复杂 的 代码 
e@ 模型 训练 所 需 的 数据 加 工 处 理 也 实现 了 函数 化 








不 过 ， 模 型 的 一 些 数 学 表达 式 还 是 需要 我 们 自己 去 写 ， 所 以 如 果 没 有 真正 地 理解 模型 ， 就 
无 法 进行 实现 (但 是 只 要 认真 阅读 本 书 ， 在 理解 上 就 不 会 有 什么 问题 )。 

那么 ,我们 就 来 看 一 下 TensorFlow 的 安装 方法 *”。2017 年 1 月 时 的 最 新 版 本 是 0.12， 
从 该 版 本 开始 TensorFlow 将 全 面 文 持 Windows、Mac 和 Linux 的 操作 系统 ， 安 装 也 变 得 
简单 。 接 着 在 2017 年 2 月 ，TensorFlow 又 发 布 了 1.8 版， 本 书 使 用 的 正 是 这 个 版 本 。 如 
果 大 家 已 经 安装 了 Anaconda， 那 么 Python 库 管理 工具 pip 应 该 也 一 起 安装 好 了 。 使 用 
pip 工具 ,执行 pip install < 库 名 >， 即 可 安装 所 需 的 库 ( 前 提 是 该 库 支持 pip 安装 )。 
TensorFlow 也 可 通过 pip 安装 ， 不 过 我 们 首先 要 把 pip 更 新 到 最 新 版 本 。 


















































Pl8 https:/www.tensorflow.org/ 

P19 TensorFlow 中 的 “Tensor” 代 表 了 数学 上 的 张 量 。 这 是 向 量 和 和 矩 阵 概念 的 扩展 ， 表 示 的 是 阶 数 的 概念 和 数 
量 ， 比 如 标量 是 0 阶 的 张 量 ， 向 量 是 1 阶 的 张 量 ， 矩阵 是 2 阶 的 张 量 。 一 般 的 神经 网 络 中 需要 计算 的 向 量 
最 多 到 2 阶 ， 但 如 果 是 处 理 时 间 序 列 数据 等 情况 ， 就 需要 计算 3 阶 ( 以 上 ) 的 张 量 了 。 不过， 在 实现 上 我 们 
只 需 知 道 “n 维 数 组 表示 为 n 阶 张 量 ” 即 可 。 

P20 详细 的 安装 方法 汇总 在 TensorFlow 官网 的 安装 页 面 上 ( https://www.tensorflow.org/install/ )， 如 果 安 装 过 程 中 
出 现 错 误 请 参考 该 网 页 。 
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$ pip install --upgrade pip 
之 后 执行 以 下 命令 ， 即 可 完成 安装 。 


$ pip install tensorflow 


如 果 使 用 的 机 器 有 GPU ,那么 可 以 用 以 下 命令 进行 安装 。 这 样 一 来 ,在 GPU 环境 下 也 可 
以 轻松 使 用 TensorFlow 了 21。 








$ pip install tensorflow-gpu 








接 下 来 确认 一 下 TensorFlow 是 否 已 安装 成 功 。 启 动 Python 解释 器 ， 输 入 以 下 命令 。 


>>> import tensorflow as tf 





如 果 没 有 出 现任 何 错 误 ， 就 说 明 安装 完成 了 。 


2.5.2 Keras 








Keras ”2 是 TensorFlow ( 和 Theano ”2 ) 的 封装 库 ， 因 为 容易 上 手 而 非常 流行 。 使 用 
TensorFlow 时 部 分 模型 的 设计 需要 我 们 自己 按照 数学 公式 去 实现 ， 而 Keras 连 这 部 分 都 准 
备 好 了 方法 ， 让 我 们 可 以 更 加 轻松 地 编写 模型 。 所 以 想 要 立即 进行 一 些 简 单 的 实验 时 ， 使 
用 Keras 就 会 非常 方便 ( 当然 在 一 般 的 实验 中 使 用 也 没有 问题 )。 

Keras 的 安装 和 TensorFlow 的 一 样 ， 也 可 以 通过 pip 进行 。 





























$ pip install keras 


启动 Python 解释 器 ， 如 果 输 入 命令 并 得 到 下 面 的 输出 ， 就 说 明 安 装 完成 了 。 




















P21 GPU 环境 的 设置 方法 也 汇总 在 其 官网 的 下 载 和 安装 页 面 上 。 本 书 不 涉及 GPU 环境 的 使 用 等 内 容 ， 如 果 读 者 
想 在 GPU 环境 上 运行 TensorFlow， 请 参考 官网 。 

P22 https://keras.io/ 

>23 Theano 也 是 帮助 我 们 简化 深度 学 习 开发 的 数值 计算 库 。 用 pip 安装 Keras 时 ，Theano 也 会 被 安装 。 本 书 涉 
及 Theano 的 内 容 很 少 ， 不 过 下 一 节 将 会 简单 地 介绍 一 下 ， 以 供 大 家 参考 。 
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>>> import keras 


Using TensorFlow backend. 








如 果 表 示 的 消息 不 是 Using TensorFlow backend.， 而 是 Using Theano backend.， 那 么 请 查 
看 一 下 用 户主 目录 下 路 径 为 ~/.keras/keras.json 的 文件 ， 里 面 应 该 有 下 面 这 行 代 码 。 








"backend": "theano" 











将 其 修改 成 下 面 这 样 ， 就 可 以 通过 TensorFlow 执行 Keras 了 。 











"backend": "tensorflow" 


2.5.3 EFDBTheano 

Theano** 是 提高 数值 计算 效率 的 Python 库 。 深 度 学 习 刚 刚 普及 的 时 候 ， 网 上 有 一 篇 
名 为 Deep Learning Tutorials*” 的 文献 。 这 篇 可 以 说 是 把 深度 学 习 的 理论 和 实现 总 结 得 最 好 
的 文献 了 ， 文 中 在 实现 模型 时 使 用 的 就 是 Theano 框架 。Theano 有 以 下 两 个 特点 。 





























@ 通过 自动 生成 和 编译 C 语言 代码 来 提高 运行 速度 
@ 自动 微分 


























而 且 与 TensorFlow 和 Keras 一 样 ， 它 也 支持 GPU 环境 。 顾 名 思 义 ， 自 动 微分 指 的 是 自动 分 
析 和 计算 函数 的 微分 表达 式 。 比 如 有 函数 f(x) = x*， 如 果 要 用 到 它 的 导 函 数 ， 就 必须 得 像 
下 面 这 样 另外 进行 定义 。 











def f(x): 
rebumnmixXe 2 


def f_deriv(x): 
Petunne2 x 




















这 意味 着 在 定义 导 函 数 之 前 ， 还 需要 我 们 先 求 出 函数 的 导 函 数 。 但 如 果 用 的 是 Theano， 就 


P24 http://deeplearning.net/software/theano/ 


P25 http://deeplearning.net/tutorial/ 
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不 必 自 己 去 求 导 函 数 了 。 
Theano 的 用 法 有 些 特别 ， 所 以 在 了 解 自动 微分 之 前 ， 我们 先 来 看 一 下 Theano 的 基础 
知识 。 首 先 像 下 面 这 样 导入 需要 用 到 的 各 个 库 。 


>>> import numpy as np 


>>> import theano 








>>> import theano.tensor as T 


Theano 把 表示 向 量 、 和 矩阵 和 标量 的 变量 全 部 作为 符号 ( symbol ) 来 处 理 。 比 如 用 如 下 
代码 就 可 以 生成 名 为 x 的 符号 ， 用 来 表示 浮 点 数 类 型 的 标量 。 


>>> x = T.dscalar('x') 





dscalar 中 的 d 是 double ( 浮 点 数 ) 的 首 字 母 。 同 理 ， 也 可 以 用 iscalar 生成 整数 类 型 的 标 
量 ， 以 及 分 别 用 dvector() 和 dmatrix() 生成 向 量 和 矩阵。 通过 生成 的 符号 ， 我 们 可 以 定义 




















>>>y= x ** 2 





上 面 的 表达 式 定义 的 就 是 y = x?。 
不 过 ,只 是 用 符号 定义 了 数学 表达 式 是 不 能 进行 计算 的 ， 还 需要 为 表达 式 生 成 相应 的 
函数 。 这 就 要 用 到 theano.function() 了 ,方法 如 下 所 示 。 








>>> f = theano.function(inputs=[x], outputs=y) 





每 次 运行 时 都 会 花 一 些 时 间 ， 这 是 因为 在 调用 eh ea 内 部 会 编译 与 表达 式 
相对 应 的 代码 。Inputs 是 对 应 函数 输入 的 符号 ; outputs 是 对 应 函数 输出 的 符号 。 在 这 样 
定义 并 生成 函数 之 后 ， 就 可 以 像 下 面 这 样 随时 调用 函数 了 。 


























>>> hI 
array(1.0) 
>>> f(2) 
array(4.0) 
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>>> f(3) 
array(9.0) 











需要 注意 的 是 函数 的 返回 值 是 NumPy 数组 ( 这 个 例子 中 是 零 维 数组 )。 
参数 是 向 量 时 的 实现 方法 和 是 标量 时 的 一 样 。 











>>> x = T.dvector('x') 





将 向量 的 符号 命名 为 x， 即 可 写 出 和 参数 为 标量 时 一 样 的 代码 。 





>>>y= x ** 2 
>>> f = theano.function(inputs=[x], outputs=y) 
>>> a np.array([1, 2, 3]) 


>>> f(a) 
almmayl A 





理解 了 符号 和 函数 之 后 ， 就 可 以 实现 自动 微分 了 。 首 先进 行 如 下 定义 。 


>>> x = T.dscalar('x') 


>>>y= x ** 2 


然后 只 需 用 T.grad() 即 可 得 到 y 的 微分 。 


>>> gy = T.grad(cost=y, wrt=x) 





这 里 的 参数 cost 表示 要 进行 微分 的 函数 ，wrt 表示 要 求 微分 的 变量 "26。 接 下 来 使 用 theano. 
function() 为 gy 生成 实际 的 函数 。 


>>> g = theano.function(inputs=[x], outputs=gy) 





用 这 个 函数 进行 一 些 测 试 ， 可 以 看 出 确实 是 根据 导 函 数 广 2 = 2x 计算 出 的 结 


>>> g(1) 


P26 wrt 指 的 是 数学 等 领域 常用 的 wrt ( with regard to， 关 于 、 至 于 )。 
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array(2.0) 
>>> g(2) 
array(4.0) 
> g(3) 
array(6.0) 








如 果 只 是 进行 简单 的 处理 ， 使 用 Theano 反而 会 增加 代码 量 ， 徒 增 麻 烦 ， 但 函数 越 
用 Theano 带 来 的 好 处 就 越 多 。 


| 5 小 结 


本 章 作为 深度 学 习 开 发 前 的 准备 ， 涵 盖 了 Python 环境 的 搭建 、Python 的 基础 知识 、 
型 库 的 使 用 方法 等 内 容 。 我 们 从 数据 类 型 、 变 量 等 Python 中 最 基础 的 知识 开始 ， 依 
次 学 习 了 切片 、 广 播 以 及 NumPy 库 等 的 用 法 。 

从 下 一 章 开 始 ， 我 们 将 学 习 深 度 学 习 的 理论 和 实现 。 首 先 来 深入 地 了 解 一 下 深度 
学 习 的 基础 结构 一 一 神经 网 络 的 基础 知识 吧 。 


渍 
注 
之 














= 


























A ES 
第 引 音 
神经 网 络 








从 本 划 开 始 ， 我们 将 学 习 深度 学 习 的 核心 一 一 神经 网 络 。 首 先 来 了 解 一 下 什么 是 神经 
网 络 ， 以 及 神经 网 络 都 有 什么 算法 。 本 昔 将 介绍 的 算法 有 以 下 4 种 。 





简单 感知 机 
逻辑 回归 
多 分 类 人 逻辑 回归 
@ 多 层 感知 机 








这 些 算法 都 是 深度 学 习 基 础 中 的 基础 ， 是 在 理解 深度 学 习 时 不 可 或 缺 的 知识 。 本 音 会 依次 
讲解 这 些 算法 ,请 大 家 务必 理解 透彻 。 


并 并 什么 是 神经 网 络 


3.1.1 脑 和 神经 元 


神经 网 络 ( neural network ) 是 人 工 智能 领域 儿 种 算法 中 的 一 种 ， 它 最 大 的 特征 是 “ 模 
拟 了 人 脑 的 结构 ”"。 人 脑 由 名 为 神经 元 ( neuron ) 的 神经 细胞 构成 ,“ 神 经 网 络 ”这 个 词 也 
源 自 神经 元 。 那 么 为 什么 要 叫 神经 “网 络 ” 呢 ? 因为 人 脑 是 由 神经 元 的 网 络 构成 的 。 约 140 
亿 神 经 元 在 人 的 大 脑 皮质 构成 了 巨大 的 网 状 结构 。 通 过 神经 元 之 间 的 信息 传递 ， 人 才能 识 
别 事物 和 处 理 信息 。 
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神经 元 之 间 通 过 电信 号 来 传递 信息 。 神 经 元 接收 了 来 自 其 他 (多 个 ) 神经 元 的 电信 和 号 
后 ,在 内 部 积累 电信 号 ， 当 累积 量 超过 一 定 阐 值 时 ， 就 向 下 一 个 神经 元 发 送 电 信和 号。 图 3.1 
是 神经 元 之 间 传 递 信息 的 概略 图 。 电 信号 会 在 神经 元 的 网 络 中 漫游 但 由 于 各 神经 元 之 间 
结合 的 紧密 程度 不 同 ， 所 以 每 个 神经 元 接收 到 的 电信 号 的 量 也 不 同 ， 进 而 使 得 整个 网 络 的 
电信 号 的 传递 方式 也 变 得 不 同 。 正 是 由 于 这 个 不 同 ， 人 才能 识别 不 同 的 模式 。 




















-人 








神经 元 


















超过 阐 值 时 激活 


图 3.1 神经 元 之 间 的 信号 传递 


3.1.2 ”深度 学 习 和 神经 网 络 


人 脑 中 的 神经 元 呈 网 状 分 布 ,“ 神 经 网 络 ”这 个 算法 就 是 因 模拟 这 个 网 络 的 结构 而 得 
名 。 不 过 人 脑 的 结构 极其 复杂 ， 所 以 如 何 把 人 脑 结构 模型 化 是 实际 设计 神经 网 络 算法 时 的 
关键 。 而 且 ， 还 必须 要 考虑 如 何 把 神经 元 之 间 电 信号 的 传播 模型 化 。 当 然 仅 仅 做 到 这 些 还 
不 够 ， 因 为 虽说 神经 元 之 间 有 电信 和 号 的 交互 ， 但 在 网 络 内 电信 号 并 不 是 无 差别 送出 的 。 我 
们 需要 先知 道 神经 元 网 络 是 什么 样 的 结构 ， 然 后 再 进行 模型 化 。 

虽然 人 们 还 没有 完 完 全 全 地 搞 清 楚 人 脑 的 全 部 奥秘 ， 不 过 已 经 知道 在 神经 元 的 网 络 中 ， 
信号 是 被 分 层 处 理 的 。 图 3.2 就 是 分 层 处理 的 概略 图 。 以 人 类 视觉 系统 的 处 理 为 例 ， 从 视 
网 膜 得 到 的 信息 首先 会 被 传 到 处 理 点 的 神经 元 层 ， 之 后 这 一 层 输出 的 电信 号 会 被 传 到 处 理 
线 的 神经 元 层 ， 接 着 再 传 到 处 理 整 体 轮廓 的 层 、 处 理 更 细致 部 分 的 层 ， 等 等 。 最 终 人 脑 就 
可 以 识别 出 我 们 平时 所 熟悉 的 “ 狗 "”“ 猫 ”等 模式 。 
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图 3.2 层级 结构 的 信息 传递 





深度 学 习 基 本 上 指 的 就 是 把 这 种 ( 深 的 ) 层级 结构 进行 了 模型 化 的 神经 网 络 。 上 面 的 
内 容 看 上 去 不 难 ,但 在 实际 模型 化 的 过 程 中 有 很 多 事情 需要 考虑 。 尤 其 是 要 把 模型 设计 为 
多 少 层 这 一 问题 ， 在 深度 学 习 出 现 之 前 是 一 个 很 大 的 难题 。 学 习 深 度 学 习 的 过 程 ， 也 是 了 
解 神经 网 络 是 如 何 发 展 起 来 的 过 程 。 我 们 首先 从 简单 网 络 的 模型 化 开始 学 起 ， 然 后 再 慢 慢 
过 渡 到 复杂 ( 深层 ) 网 络 的 模型 化 。 



































作为 电路 的 神经 网 络 


3.2.1 简单 的 模型 化 


前 面 讲 过 ， 神 经 元 是 通过 电信 和 号 向 其 他 神经 元 传递 信息 的 。 人 脑 内 的 神经 元 网 络 里 有 
电信 号 游 走 ， 也 就 是 说 人 脑 形成 了 电路 。 神 经 元 在 接收 到 超过 一 定 阐 值 的 电信 号 之 后 ， 就 
会 激活 ， 然 后 向 下 一 个 神经 元 发 送 电 信号 ， 这 一 机 制 控制 了 电路 中 的 电流 。 

先 来 思考 一 个 简单 的 例子 : 某 个 神经 元 从 两 个 神经 元 那里 接收 了 电信 号 1。 我 们 必须 要 
考虑 的 问题 有 以 下 3 点 。 























@ 分 别 从 两 个 神经 元 接收 多 少 电信 号 
@ 效 值 应 设置 为 多 少 
@ 超过 阔 值 时 需 发 送 多 少 电信 和 号 


1 神经 网 络 模 型 中 的 “神经 元 ”是 对 人 脑 内 (或 者 说 生物 学 上 的 ) 神经 元 的 一 个 简化 概念 ， 所 以 为 了 严格 区 
分 ， 人 们 一 般 称 之 为 单元 ( unit )。 不 过 本 书 为 了 方便 理解 ， 在 神经 网 络 模型 的 语 境 下 也 使 用 “神经 元 ”这 


个 词 。 























068 | 第 3 章 神经 网 络 





思考 这 些 问题 的 过 程 就 相当 于 把 ( 人 简单 的 ) 神经 网 络 模型 化 的 过 程 ， 我 们 先 来 画 一 下 示意 
图 吧 。 请 看 图 3.3。 按 照 电信 号 流向 的 先后 顺序 ， 先 从 左边 的 两 个 神经 元 开始 思考 。 这 两 个 
神经 元 接收 到 的 电信 号 的 量 本 身 也 是 变量 ， 所 以 分 别 用 HH、x2 来 表示 它们 的 值 。 男 外 ， 这 
两 个 神经 元 相当 于 信息 的 入 口 ( 即 输入 ) 部 分 ， 所 以 这 里 没有 效 值 ， 会 直接 向 后 面 的 神经 
元 传递 信号 (信息 ) 不 过 ,由 于 各 神经 元 之 间 连 接 的 紧密 程度 不 同 ， 实 际 能 传播 的 电信 号 
的 量 也 不 尽 相 同 。 因 此 ， 这 里 用 wi1、w2 来 表示 连接 的 紧密 程度 ， 那 么 从 两 个 神经 元 传 来 的 
电信 号 的 总 量 如 下 所 示 。 























WI1IX]1 十 W2X2 (3.1) 
这 里 的 wi1、ws 称 为 网 络 的 权重 。 
输入 输出 
X 1 一- 一， 
WI1 
了 
WwW2 


图 3.3 简单 的 模型 





收 到 电信 和 号 的 神经 元 是 否 能 进一步 向 下 一 个 神经 元 传递 电信 号 ( 是否 激活 )， 取 决 于 收 
到 的 电信 和 号 的 量 是 否 超过 阔 值 。 因 此 ， 设 阔 值 为 6 后 问题 就 可 以 描述 为 “神经 元 是 否 激活 
取决 于 条 件 wixi + w2x2 > 9 是否 满足 ”。 至 于 神经 元 激活 时 向 下 一 个 神经 元 传递 多 少 电 信 
号 , 这 是 由 网 络 的 权重 决定 的 ， 所 以 我 们 只 考虑 神经 元 是 + 1 (激活 了 ) 还 是 0 (不 激活 ) 
即 可 。 

根据 以 上 信息 ， 设 最 终 能 够 从 神经 元 得 到 的 电信 号 的 量 ( 即 输入 ) 为 y， 那么 下 式 






































] (wixi+w2x2 > 0) 
y= | (3.2) 


0 (wi1xX1 十 W2X2 < 0) 
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这 样 就 完成 了 简单 的 模型 化 。 只 要 适当 地 设置 网 络 的 权重 wi1、w 以 及 阀 值 6， 那 么 与 输入 
x1、X2 相对 应 的 输出 y 的 值 ， 就 应 该 与 实际 在 脑 内 传播 的 电信 号 的 量 相 同 。 无 论 神经 网 络 
的 形式 变 得 多 么 复杂 ， 这 个 方法 基本 上 都 是 可 以 使 用 的 。 











3.2.2 ”逻辑 电路 


3.2.2.1 逻辑 门 

人 脑 是 使 用 模拟 值 ( 连续 值 ) 来 处 理 信息 的 。 这 也 就 是 说 ， 脑 内 的 神经 电路 是 模拟 
电路 。 而 构成 了 机 器 的 电子 电路 中 ， 除 了 模拟 电路 之 外 还 有 数字 电路 。 有 了 数字 电路 ， 人 
们 就 可 以 把 自然 界 的 信息 通过 数字 (0 或 1) 来 处 理 ， 这 比 直接 用 模拟 信号 处 理 的 效率 高 
很 多 。 

数字 电路 中 ， 要 想 控制 信号 0 或 1 的 输入 和 输出 ， 需 要 用 到 名 为 逻辑 门 的 电路 。 我 们 
先 来 看 一 下 3 种 基本 的 逻辑 门 电路 ， 其 他 详细 信息 将 在 后 文 介 绍 。 





















































| 


.与 门 (AND gate， 逻 辑 与 ) 
或 门 (OR gate， 逮 辑 或 ) 
3. 非 门 (NOT gate， 逻 辑 非 ) 














通过 组 合 这 3 种 基本 的 门 电路 ， 可 以 实现 所 有 输入 /输出 的 模式 。 通 过 神经 网 络 进行 信息 
处 理 ， 是 一 种 让 机 需 代 替 人 类 处 理 信息 的 尝试 ， 能 和 否 实 现 逻 辑 门 的 结构 是 关键 。 前 面 完 成 
模型 化 的 表达 式 是 对 人 脑 的 模拟 ， 不 管 是 模拟 电路 还 是 数字 电路 应 该 都 可 以 支持 。 下 面 我 
们 就 依次 看 一 下 神经 网 络 是 如 何 去 实 现 这 3 种 逻辑 门 的 吧 。 
















































































3.2.2.2 与 门 
与 门 也 被 称 为 逻辑 与 ,电路 符号 如 图 3.4 所 示 。 


输入 输出 
Xl 

了 
X2 


图 3.4 与 门 的 电路 符号 
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与 门 的 输入 有 2 个 , 输出 有 1 个 ， 只 有 在 2 个 输入 都 为 1 时 输出 1， 否则 输出 0。 表 3.1 是 
各 种 输入 /输出 情况 的 汇总 。 


表 3.1 与 门 的 输入 /输出 














Xl X2 了 
0 0 0 
0 1 0 
1 0 0 
| 1 1 

















与 门 的 网 络 (电路 ) 在 形式 上 和 前 面 得 到 的 简单 模型 相同 ( 都 是 2 个 输入 、1 个 输 
出 )， 所 以 要 使 用 神经 网 络 实现 与 门 ， 只 需 确定 式 (3.3) 中 能 够 满足 所 有 (x1, xz, y) 组 合 的 
(wi1, w2,0) 即 可 。 


1] (wixi+w2Xx2—0>0) 
-| 1X1 2X2 (G3.3) 


0 (wi1X1 +wXx2—0< 0) 


那么 ， 该 如 何 去 求 (wb w2, 9) 呢 ?” 如 果 运 气 好 ， 也 许 随意 地 选择 一 组 值 就 能 满足 需求 ， 
比如 让 (wi1, w2,9) = (2,1,3)， 但 大 多 数 情 况 下 都 不 会 这 么 幸运 。 如 果 采 用 随意 选 一 组 
值 实 验 的 方法 ,， 那 就 要 根据 得 到 的 输出 和 正确 输出 之 间 的 误差 去 修正 实验 值 。 比 如 让 
(wi,w2,9) = (1,1,0)， 那么 在 (xu x2) = (0,0) 时 根据 1.0+1.:0-0=0 得 到 输出 为 >=1， 但 
正确 结果 应 该 是 y= 0。 这 是 误 激 活 导致 的 误差 ， 说 明 现 在 处 于 结合 程度 过 于 紧密 或 者 阔 值 
过 小 的 状态 ， 所 以 可 以 通过 减 小 权重 (如果 输 入 是 正 数 ) 或 者 增加 阔 值 来 缩小 输出 。 

像 这 样 ， 尝 试 输入 不 同 组 合 的 参数 (wi1,w2,9)， 如 果 输 出 有 误 就 对 参数 进行 修正 ， 使 输 
出 慢 慢 接近 正确 状态 的 方法 叫 作 误差 修正 学 习 法 。 为 了 避免 混乱 ， 设 正确 的 输出 为 1:， 模 型 
的 输出 则 还 是 >， 那 么 该 方法 的 规则 可 以 汇总 如 下 。 



























































@ 当 1=y 时 说 明 输 出 是 正确 的 ,不 需要 进行 修正 

@ 当 !=0、y=1 时 说 明 输出 太 大 ， 需 要 修正 。 如 果 输 入 为 正 数 则 降低 权重 ， 为 负数 
则 增 大 权重 。 或 者 提高 闷 值 

@ 当 !=1、y=0 时 说 明 输出 太 小 ， 需 要 修正 。 如 果 输 入 为 正 数 则 增 大 权重 ， 为 负数 
则 降低 权重 。 或 者 降低 阔 值 


令 修 正 值 的 变化 量 分 别 为 Aw:、Aw2 和 Ab， 第 大 次 尝试 时 的 权重 和 赣 值 分 别 为 Wi” 、w%) 和 
9 中 ， 那 么 误差 修正 学 习 法 的 表达 式 (之 一 ) 整理 如 下 。 
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Aw1 = (1— y)x1 
Aw2 = (t—y)x2 (3.4) 
Ab = -一 妇 

wD = Ww) + Amwl 

Wt = wh + Aw (3.5) 


br = gH +Ab 





对 第 上 次 尝试 的 值 进行 修正 ， 然 后 再 进行 第 上 + 1 次 尝试 ， 不断 重复 直到 无 须 修正 为 止 ( 即 
所 有 参数 的 组 合 能 够 得 到 正确 的 输出 为 止 )。 那么 ,下 面 就 来 看 一 下 使 用 这 些 表达 式 能 否 真 
正 地 实现 与 门 。 首 先 任意 选 一 个 值 ， 这 里 就 从 (wi1,w2, 9) = (0,0,0) 开始 尝试 。 实 验 结果 如 
表 3.2 所 示 。 














表 3.2 对 与 门 实行 误差 修正 学 习 法 





























k Xl X2 ft wi1 WwW2 0 y ft—y Awl1 | Aw2 A0 
1 0 0 0 0 0 0 1 一 | 0 0 1 
2 0 1 0 0 0 1 0 0 0 0 0 
3 1 0 0 0 0 1 0 0 0 0 0 
4 1 1 1 0 0 1 0 1 1 1 一 | 
S 0 0 0 由 1 0 1 一 | 0 0 1 
6 0 1 0 下 | 1 1 一 | 0 一 | 1 
以 1 0 0 1 0 2 0 0 0 0 0 
8 中 1 | 1 0 多 0 1 1 一 | 
9 0 0 0 2 1 LE 0 0 0 0 0 
10 0 1 0 2 1 1 1 一 | 0 一 | 
11 1 0 0 2 0 2 1 一 | 一 | 0 1 
12 1 1 1 1 0 3 0 | 1 一 | 
13 0 0 0 2 中 2 0 0 0 0 0 
14 0 1 0 之 1 2 0 0 0 0 0 
lig; Ll 0 0 之 之 | 一 | 一 | 0 1 
16 中 1 I 1 | 3 0 中 1 1 一 | 
17 0 0 0 2 之 2 0 0 0 0 0 
18 0 1 0 2 2 2 1 一 | 0 一 | 1 
19 1 0 0 2 1 3 0 0 0 0 0 
20 1 1 1 2 1 3 | 0 0 0 0 
2l 0 0 0 风 ] 3 0 0 0 0 0 
22 0 jl 0 之 1 3 0 0 0 0 0 
23 | 0 0 多 jl 3 0 0 0 0 0 
24 1 1 1 几 1 3 1 0 0 0 0 
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顾名思义 ,误差 修正 学 习 法 就 是 直到 得 到 正确 结果 为 止 不 断 进行 尝试 ， 在 尝试 的 过 程 中 让 
网 络 进行 学 习 ( 训练 网 络 )。 最 终 得 到 的 学 习 结 果 是 (wi, w2, 90) = (2,1,3)， 将 它 代 入 表达 式 
之 后 如 下 所 示 。 








2x +m-3=0 (3.6) 




















可 以 看 出 这 个 表达 式 决定 了 神经 元 是 否 激 活 的 分 界线 。 在 x1 -x2 平面 下 ， 表 达 式 的 图 形 是 
图 3.5 所 示 的 直线 ， 所 以 神经 网 络 使 用 直线 对 与 门 数据 进行 分 类 。 从 图 中 可 以 看 出 ， 其 他 
直线 也 可 以 对 数据 进行 分 类 ， 所 以 通过 误差 修正 学 习 法 得 到 的 直线 表达 式 (3.6) 只 是 能 够 顺 
利 对 数据 进行 分 类 的 例子 之 一 。 















































图 3.5 与 门 的 分 界线 


3.2.2.3 或 门 
或 门 又 被 称 为 逻辑 或 ， 和 与 门 一 样 ， 都 是 有 2 个 输入 、1 个 输出 的 电路 。 或 门 的 电路 
符号 如 图 3.6 所 示 。 








EE 
5S: 


输出 


Xl1 


图 3.6 或 门 的 电路 符号 


3.2 ”作为 电路 的 神经 网 络 | 073 














和 与 门 不 同 的 是 ,或 门 中 只 要 有 1 个 输入 为 1， 那 么 输出 就 是 1。 表 3.3 是 各 种 输入 /输出 
情况 的 汇总 。 


表 3.3 或 门 的 输入 /输出 








Xl X2 了 
0 0 0 
0 1 1 

















1 0 1 
或 门 和 与 门 的 网 络 (电路 ) 形式 是 相同 的 ， 所 以 应 该 也 可 以 用 与 门 的 方法 进行 训练 。 
我 们 再 来 用 误差 修正 学 习 法 试 试看 吧 。 实 验 结果 如 表 3.4 所 示 。 








表 3.4 对 或 门 实行 误差 修正 学 习 法 
































大 XI 2X2 W1 Ww2 0 y t-y | Amwl | Aw2 A0 
1 0 0 0 0 0 0 1 一 | 0 0 1 
2 0 1 1 0 0 1 0 1 0 1 一 
3 1 0 1 0 1 0 1 0 0 0 0 
4 1 1 1 0 1 0 1 0 0 0 0 
5 0 0 0 0 1 0 1 一 | 0 0 1 
6 0 1 1 0 中 1 1 0 | 0 0 
了 1 0 1 0 1 1 0 1 0 0 一 | 
8 1 中 1 1 0 1 0 0 0 0 
9 0 0 0 1 1 0 1 一 | 0 0 1 
10 0 1 1 1 1 1 1 0 0 0 0 
11 1 0 1 1 1 1 1 0 0 0 0 
12 1 1 1 1 1 1 1 0 0 0 0 
13 0 0 0 中 1 1 0 0 0 0 0 
14 0 1 1 1 1 1 1 0 0 0 0 
15 1 0 1 Ll 1 1 1 0 0 0 0 
16 1 1 中 1 1 1 1 0 0 0 0 
根据 表 的 结果 ， 我 们 可 知 
X11+X2—1=0 (3.7) 











就 是 或 门 的 (1 条) 分 类 直线 。 这 条 分 类 直线 在 悟 -如 平面 的 图 形 如 图 3.7 所 示 。 
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图 3.7 或 门 的 分 界限 


3.2.2.4 非 门 
非 门 又 叫 逻 辑 非 。 和 与 门 以 及 或 门 不 同 ， 非 门 是 只 有 1 个 输入 和 1 个 输出 的 电路 ， 电 
路 符号 如 图 3.8 所 示 。 








输入 输出 


图 3.8 非 门 的 电路 符号 








非 门 对 输入 信和 号 进行 反 转 之 后 将 其 输出 。 也 就 是 说 ， 如 果 输 入 为 0 则 输出 1， 如 果 输 入 为 1 
则 输出 0。 表 3.5 是 各 种 输入 /输出 情况 的 汇总 。 
表 3.5 非 门 的 输入 /输出 











Xl y 
0 1 
1 0 











由 于 非 门 只 有 1 个 输入 ， 所 以 直接 考虑 下 面 的 输出 即 可 。 


y= WIXl1— 0 (3.8) 
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因为 输出 信号 是 输入 信号 的 反 转 ， 所 以 很 容易 就 可 以 看 出 wi = -1， 随 即 得 出 相应 的 9 = -1。 
我 们 也 可 以 通过 误差 修正 学 习 法 求 得 结果 ， 每 一 步 更 新 的 表达 式 如 下 所 示 。 




































































Aw1 = (t— y)xil 
(3.9) 
Ab = -(t—y) 
wD = wi + AwI 
gr = 0 +Ab 9 
实验 结果 如 表 3.6 所 示 。 
表 3.6 对 非 门 实行 误差 修正 学 习 法 
k y 
1 0 1 0 0 0 1 0 一 | 
2 1 0 0 -1 1 -1 -1 1 
3 0 1 一 | 0 0 0 一 | 
4 1 0 | | 0 0 0 0 
5 0 1 一 一 1 0 0 0 
0 1 0 一 一 0 0 0 0 
` 管 通过 哪 种 方法 ， 最 后 都 可 以 得 到 以 下 表达 式 。 
y 三 一 加 二 1 (3.11) 








现在 我 们 已 经 用 神经 网 络 表示 了 3 种 基本 逻辑 门 ， 通 过 它们 的 组 合 就 能 表示 其 他 模式 了 。 














国 归 简单 感知 机 


3.3.1 模型 化 


在 学 习 使 用 神经 网 络 实现 逻辑 门 时 ， 我 们 定义 了 神经 元 的 激活 表达 式 和 误差 修正 学 习 
法 的 更 新 表达 式 ， 并 依次 进行 了 计算 。 前 文中 逻辑 门 的 输入 (最 多 也 就 ) 只 有 2 个 , 接 下 
来 让 我 们 思考 一 下 有 更 多 输入 的 情况 吧 。 把 输入 扩展 为 n 个 ， 对 其 进行 泛 化 。 图 3.9 是 模 
型 的 概略 图 。 
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输入 输出 





图 3.9 扩展 了 输入 的 模型 





虽然 输入 的 数量 增加 了 ， 但 神经 元 “ 收 到 的 电信 和 号 的 量 超过 阔 值 时 激活 ”这 个 特性 
不 变 的 ,所 以 可 以 将 和 输出 的 表达 式 如 下 定义 。 


并 


] (Wixi+w2Xx2 + + wnXxn > 0) 
二 | (WIXI1 + WX2 十 二 Wi < 0) 5% 
这 里 引入 下 式 所 表达 的 函数 f(x)， 
_j1 (x>0) 
f(x) = 人 (x <0) (3.13) 
就 可 以 重新 定义 网 络 的 输出 y。 
y= fwixi t+ wx t+ + wnxn — 0) (3.14) 


这 里 的 f(x) 称 为 阶 跃 函数 (step function )。 为 了 把 表达 式 统 一 为 和 的 形式 好 让 处 理 变 得 更 
方便 ， 这 里 令 = -0， 另 外 权重 wx 和 输入 xx(k = 1,2,…,n) 的 线性 和 的 部 分 可 以 用 向 量 的 
内 积 来 表示 ， 所 以 像 下 面 这样 写 ( 列 ) 向 量 x 和 w。 


Xl JW1 
X2 W2 

二 | 2 、 (3.15) 
Xn Wn 


最 终 输 出 变 成 了 如 下 形式 。 
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y= f(wix+b) (3.16) 








这 样 就 以 标准 形式 定义 了 网 络 的 输出 。 以 这 种 形式 表示 神经 元 输出 的 神经 网 络 模型 就 称 为 
感知 机 (perception )。 其 中 最 简单 的 模型 如 图 3.9 所 示 ， 这 种 输入 值 可 以 立即 传递 到 输出 的 
模型 称 为 简单 感知 机 ( simple perception )。 此 外 ， 我 们 把 这 里 定义 的 向 量 w 叫 作 权 重 向 量 ， 
把 5 叫 作 偏 置 (bias )。 

在 将 逻辑 门 模型 化 时 ,需要 调整 wj、wz 和 9 的 值 。 同 样 ， 这 里 也 需要 调整 标准 模型 
( 即 感知 机 ) 的 权重 向 量 w 和 偏 置 b。 用 向 量 表示 之 后 ， 误 差 修正 学 习 法 的 更 新 表达 式 也 变 
得 更 简洁 了 。 








Am = (1t—y)x 
AD = 1t-y 


(3.17) 


wD) = wh + Aw 


Dr = pH + Ab 


(3.18) 


3.3.2 实现 


用 向 量 表示 感知 机 表达 式 的 好 处 是 数学 表达 式 处 理 起 来 会 更 容易 。 另 外 ， 实 现时 用 数 
组 来 表示 向 量 还 能 让 编写 变 得 更 直观 。 下 面 就 通过 简单 的 例子 来 看 一 下 。 前 面 我 们 考虑 的 
数据 分 类 都 是 逻辑 门 的 输入 为 0 和 1 组 合 的 情况 ， 现 在 我 们 来 考虑 更 普遍 的 情况 : 遵循 下 
态 分 布 的 两 种 数据 的 分 类 。 为 了 让 分 类 结果 可 视 化 ， 这 次 准备 两 组 神经 元 数据 作为 输入 。 

假设 每 组 部 有 10 个 神经 元 数据 ， 一 组 不 激活 ， 平 均值 为 0， 另 一 组 激活 ， 平 均值 为 5。 
生成 该 数据 的 代码 如 下 所 示 。 





















































import numpy as np 
rng = np.random.RandomState(123) 
d = 2 # 数据 的 维度 


N = 10 # 每 组 数据 的 数量 
mean = 5 # 神经 元 激活 的 那 一 组 数据 的 平均 值 





x1 = rng.randn(N, d) + np.array([0，0]) 


x2 = rng.randn(N, d) + np.array([mean, mean]) 
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这 里 通过 np.random.Randomstate() 来 控制 随机 数 的 状态 。 为 了 在 实验 中 得 到 多 个 遵循 正 态 分 
布 的 数据 ， 需 要 生成 随机 数据 ， 但 如 果 不 加 以 控制 ， 每 次 生成 的 值 都 会 不 同 。 虽 然 这 样 也 可 
以 做 实验 ,但 得 到 的 结果 会 非常 杂乱 ， 不 利于 数据 分 析 的 正确 性 。 所 以 ,我 们 需要 每 次 都 生 
成 “同样 的 随机 数据 *”， 在 同一 个 条 件 下 对 实验 结果 进行 比较 和 分 析 。 图 3.10 是 生成 的 数据 
x1 和 x2 的 分 布 图 。 为 了 一 次 性 处 理 生成 的 这 两 种 数据 ， 需 要 把 x1 和 x2 的 数据 合并 到 一 起 。 























x = np.concatenate((x1, x2), axis=0) 














2 -2 0 > 4 6 8 
图 3.10 数据 的 分 布 
接 下 来 我 们 试 着 用 感知 机 对 生成 的 数据 进行 分 类 。 首 先 对 模型 的 参数 权重 向 量 w 和 偏 
置 b 进行 初始 化 。 


Ww = np.zeros(d) 
b = 0 


然后 用 函数 定义 输出 y = f(wix + 5b)。 


def y(x): 
return step(np.dot(w, x) + 'b) 
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defistep(X) 


rexunnal (0 0 





其 中 的 step(x) 是 阶 唉 函数 。 可 以 看 到 ， 上 面 的 代码 和 表达 式 非常 接近 ， 这 说 明 我 们 可 以 
很 直观 地 编写 代码 。 
我 们 需要 正确 的 输出 值 来 更 新 参数 ， 所 以 要 像 下 面 这 样 定义 输 








i 
Jo 


def t(i): 
TNE 
return 0 
else: 
Eee 








对 于 前 面 定义 的 x， 前 N 个 数据 是 不 激活 的 x1， 而 剩余 N 个 数据 是 激活 的 x2， 所 以 才能 这 
样 实现 。 到 此 ， 训 练 所 需 的 值 ( 函数 ) 就 齐全 了 ， 下 面 就 来 实现 误差 修正 学 习 法 吧 。 

误差 修正 学 习 法 会 不 断 地 重复 训练 直到 所 有 数据 都 被 正确 分 类 ， 所 以 程序 结构 大 体 上 
可 以 表示 如 下 。 








while True: 
# 
# 参数 的 更 新 处 理 
## 
if “所 有 数据 都 被 正确 分 类 ， 


break 














我 们 需要 在 “参数 的 更 新 处 理 ” 部 分 实现 mw 、2 的 更 新 表达 式 ， 以 及 判断 所 有 数据 是 否 被 正确 
分 类 的 逻辑 。 下 面 是 实现 代码 。 





while True: 
classified = True 
For ranee(NI* 2 
delta w = (t(i) - y(x[i])) * x[i] 
deltasb = (tt(1) = y(xL1i])) 
Ww += delta w 
b += delta_b 
classified *= all(delta w == 0) * (delta b == 0) 
if classified: 
break 
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delta_w 和 delta_b 分 别 代 表 了 数学 表达 式 中 的 Aw、Ab。 这 个 实现 也 和 表达 式 一 样 ， 所 以 
不 再 详细 说 明 。classified 是 判断 所 有 数据 是 否 被 正确 分 类 的 标志 ， 所 以 根据 下 面 这 行 代码 ， 











classified *= all(delta w == 0) * (delta b == 0) 


只 要 20 个 数据 中 有 1 个 不 满足 Aw 0 或 Ab 隆 0， 则 classified = 86， 进而 开始 重复 训练 。 
运行 上 面 的 程序 ， 得 到 的 结果 是 “w:[ 2.14037745 1.2763927 ]、b: -9”, 今 x = CO 2D)T， 
那么 下 式 成 立 。 





2.14037745xl + 1.2703927x2 -9=0 (3:19) 
































这 就 是 神经 元 是 否 激 活 的 分 界线 ， 图 3.11 是 这 条 直线 的 图 形 。 

















一 4 一 2 0 2 4 6 8 


图 3.11 数据 的 分 类 直线 





从 图 中 可 以 看 出 神经 元 在 (0, 0) 点 不 激活 ， 在 (5, 5) 点 应 该 激活 。 下 面 验证 一 下 。 


print(y([0, 0]1)) 
prunt(y (SD 


可 以 看 到 结果 分 别 为 6 和 1。 
简单 感知 机 是 神经 网 络 中 最 简单 的 模型 ， 所 以 不 使 用 TensorFlow 或 Keras 等 库 也 可 以 
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轻松 实现 。 这 是 我 们 第 一 次 把 数学 表达 式 落实 到 实现 上 ， 所 以 本 节 详 细 地 讲解 了 整个 过 程 。 
即便 出 现 更 复杂 的 模型 ， 只 要 按照 这 次 的 步 又 就 也 可 以 顺利 地 把 理论 转化 为 实现 。 今 后 要 
处 理 的 模型 会 越 来 越 复杂 ， 请 务必 理解 透彻 。 


名 逻辑 回归 


3.4.1 阶 跃 函 数 与 sigmoid 函数 


在 简单 感知 机 中 ,为 了 使 用 阶 路 函数 来 判断 神经 元 是 否 应 该 激活 ， 将 神经 元 的 输出 设 
为 了 0 或 1 这 两 个 值 。 虽然 这 样 也 可 以 对 数据 进行 分 类 ,但 是 在 处 理 现实 问题 时 ， 简单 感 
知 机 就 不 能 适用 于 所 有 场景 了 。 

比如 垃圾 邮件 的 分 类 问题 。 大 家 可 能 都 有 过 新 邮件 明明 不 是 垃圾 邮件 ， 却 被 系统 分 到 
垃圾 箱 ， 导 致 自己 错过 邮件 的 经 历 。 神 经 网 络 根据 以 前 的 数据 来 判断 邮件 是 否 为 垃圾 邮件 ， 
会 把 “内 容 和 以 前 的 垃圾 邮件 接近 的 邮件 (但 却 不 是 垃圾 邮件 》 判定 为 垃圾 邮件 。 这 是 由 
神经 网 络 学 习 的 特点 决定 的 ， 是 不 可 避免 的 。 硅 能 把 “勉强 ”可 以 判定 为 垃圾 邮件 的 邮件 
分 到 收 件 箱 ， 就 可 以 防止 出 现 用 户 错过 应 读 邮 件 这 种 最 坏 的 情况 。 但 是 简单 感知 机 无 法 判 
断 何 为 “勉强 ”。 它 的 输出 值 只 有 0 或 1， 神 经 元 “勉强 ”要 激活 的 情况 与 完全 不 激活 的 人 情 
况 一 样 ， 都 含 在 0 的 部 分 里 。 

解决 这 个 问题 的 方法 是 不 使 用 0 或 1 的 输出 值 ， 而 是 使 用 0 到 1 之 间 的 概率 值 。 如 果 
输出 值 是 概率 ， 就 能 做 到 “把 是 垃圾 邮件 的 概率 为 50.1% 的 邮件 分 到 收 件 箱 ” 这 样 的 事情 
了 。 要 实现 这 一 点 ， 需 要 用 “输出 概率 ”的 函数 来 蔡 代 阶 牙 函数 。 “输出 概率 ”意味 着 能 把 
任意 实数 都 转化 为 0 到 1 之 间 的 数 ， 而 能 做 到 这 一 点 的 函数 之 一 就 是 如 下 所 示 的 ex)。 
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图 3.12” 阶 雅 函数 ( 左 ) 和 sigmoid 函数 ( 右 ) 








当然 ， 并 不 是 任何 输出 值 在 0 和 1 之 间 的 函数 都 可 以 用 来 蔡 代 阶 跃 函数。 选用 sigmoid 函 
数 作为 输出 概率 的 函数 的 理由 总 结 在 3.4.4 节 ， 请 大 家 参考 阅读 。 我 们 现在 只 需要 知道 
sigmoid 也 数 能 够 很 好 地 近似 表示 概率 的 函数 就 足够 了 。 使 用 sigmoid 也 数 的 模型 称 为 逻辑 
回归 (logistic regression )。 此 外 ， 不 管 神 经 元 的 输出 y= fwrx+5) 中 的 了 (.) 是 阶 跃 函数 还 
是 sigmoid 函数 (或 者 其 他 函数 )， 这 一 类 在 神经 元 线性 结合 后 进行 非 线 性 变换 的 函数 统称 
为 激活 函数 (activation function )。 

至 于 为 什么 要 使 用 sigmoid 函数 ， 原 因 在 于 其 数学 上 的 一 个 特性 。 把 sigmoid 函数 微分 
之 后 会 得 到 下 式 。 











0 (x) = (xz)( — o(x)) (321) 


























可 以 看 到 sigmoid 函数 的 微分 是 由 其 本 身 表示 的 。 无 论 是 在 理论 上 还 是 实现 上 ， 这 个 特性 
都 非常 有 用 。 下 面 我 们 就 先 去 了 解 一 下 逻辑 回归 的 理论 知识 。 


3.4.2 模型 化 


3.4.2.1 似 然 函 数 与 交叉 粒 差 函 数 

逻辑 回归 与 简单 感知 机 不 同 ， 它 是 概率 分 类 模型 ， 所 以 二 者 的 做 法 也 不 同 。 对 于 某 个 
输入 x， 设 定神 经 元 是 否 激 活 的 概率 变量 为 C。 也 就 是 说 ，C 是 在 神经 元 激活 时 等 于 1， 不 
激活 时 等 于 0 的 概率 变量 。 因 此 在 考虑 如 图 3.9 所 示 的 与 使 用 简单 感知 机 时 相同 的 模型 时 ， 
神经 元 激活 的 概率 可 以 如 下 表示 。 
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p(C=1|x)=o(wix+Db) (3.22) 

由 于 概率 之 和 为 1， 所 以 可 以 推导 出 神经 元 不 激活 的 概率 。 
pC=0|x)=1-p(C= 1|x) (3.23) 
由 于 C 只 能 为 0 或 1， 所 以 令 y := olwTx+5)， 就 可 以 把 式 (3.22) 和 式 (3.23) 整合 为 一 个 表 


pC=1x)=y (1 y) (3.24) 





其 中 te {0,1}。 有 了 这 个 表达 式 ， 当 及 个 输入 数据 xn(n = 1,2,…,N) 及 其 对 应 的 正确 
的 输出 数据 时， 我 们 就 可 以 用 yi := o(w1Txn+5), 像 下 面 这 样 表示 似 然 函数 (likelihood 
function )， 以 便 计算 神经 网 络 的 参数 权重 w 和 偏 置 5b 的 最 大 似 然 佑 计 。 





L(w,b) 


AA 
[es tn|xn) 
对 


N 
= | | (3.25) 


n=1 


调整 参数 使 这 个 似 然 函数 最 大 化 ( 即 最 大 似 然 )， 就 可 以 很 好 地 完成 网 络 的 训练 了 。 这 种 求 
函数 最 大 或 最 小 状态 的 问题 称 为 最 优化 问题 ( optimization problem )。 通 过 符号 的 反 转 ， 可 
以 把 函数 的 最 大 化 问题 转换 为 最 小 化 问题 ， 所 以 一 般 来 说 对 函数 “最 优化 ”"， 指 的 就 是 求 使 
函数 最 小 化 的 参数 所 。 

说 起 函数 的 最 大 值 和 最 小 值 ， 我 们 可 能 会 想到 “微分 "。 比 如 ,，“ 求 函数 了 (x) = x 的 最 
仆 值 ”的 问题 ， 可 以 根据 f(x) = 2x = 0 得 出 x = 0, 求 得 最 小 值 为 1(0) = 0。 像 这 样 ， 计 算 
函数 的 最 大 值 和 最 小 值 时 ， 要 先 求 参数 的 偏 微分 ( 梯度 )。 所 以 在 考虑 似 然 函 数 的 最 大 化 问 
题 时 ， 只 要 计算 似 然 函数 各 参数 的 偏 微 分 即 可 。 不 过 式 (3.25) 是 积 的 形式 ， 求 偏 微分 的 计 

会 很 复杂 。 为 了 简化 计算 ， 取 式 (3.25) 的 对 数 ， 把 表达 式 变 为 和 的 形式 。 另 外 ， 为 了 符 
合 最 优化 问题 的 一 般 形 式 而 替换 符号 之 后 ， 就 可 以 得 到 以 下 表达 式 。 























~ 





E(w,b) := —logL(w, 5b) 


N 
= — {inlog yn + (1 ~ tn)log(l — yn)} (3.20) 


n=1 

















>2 尤其 是 在 物理 学 中 ， 用 也 数 来 表示 一 个 系统 中 的 能 量 ， 就 可 以 研究 能 量 最 小 化 问题 ， 也 就 与 现实 问题 结合 起 
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像 式 (3.26) 这 样 的 函数 称 为 交叉 粒 差 函 数 ( cross-entropy error function )。 求 这 个 函数 最 小 值 的 
过 程 就 是 对 原来 的 ( 似 然 ) 函数 进行 最 优化 的 过 程 ， 式 (3.26) 表示 的 正 是 现状 与 最 优 状 态 之 间 
有 多 少 误差 。 这 里 的 函数 瑟 一 般 叫 作 误差 函数 (error function ) 或 者 损失 函数 (loss function )。 








3.4.2.2 ”梯度 下 降 法 

交叉 信 误差 函数 的 参数 是 w 和 5， 所 以 需要 计算 的 是 “对 w、5。 进行 偏 微分 ， 使 偏 微分 
为 0 的 值 "， 但 通过 表达 式 直 接 求 这 个 值 很 困难 ， 所 以 可 以 采用 通过 反复 训练 逐渐 更 新 参数 
的 做 法 。 代 表 性 的 方法 有 梯度 下 降 法 (gradient descent ) 3 ， 它 的 表达 式 如 下 所 示 。 












































. OE(w,b) 
+ 一 wh 
于 (3.27) 





OE(w,b) 
k+l 大 
0 G.28) 

















这 里 的 7(> 0) 是 叫 作 学 习 率 (learning rate ) 的 超 参 数 ， 用 于 调整 模型 参数 收敛 的 难度 。 一 
般 采 用 0.1 或 0.01 等 比较 小 的 值 。 这 里 不 展开 介绍 梯度 下 降 法 和 学 习 率 ， 有 兴趣 的 读者 请 
参考 3.4.5 节 中 的 详细 介绍 。 当 式 (3.27) 和 式 (3.28) 的 参数 无 法 再 更 新 时 ， 说 明 梯 度 已 下 降 
为 0 了 ， 所 以 就 得 到 了 通过 反复 训练 而 涵盖 的 范围 内 的 最 优 解 。 

下 面 尝试 计算 各 个 参数 的 梯度 。 























Ey :Se {fi log yn 村 (1 一 tn) log(1 yn)} (3.29) 
根据 上 式 ， 可 如 下 计算 权重 w 的 梯度 。 


dE(w,b) > Oyn 




















Bw A By Ow Cy 
N 
四 tn 1-th\Oyn 
本 pa 
N 
加 ls 加 
--> 2 2 1 Jj» — yn)xn (3.32) 
n= yn — Yn 
N 
= Stl yn) yn(l 和 tn))xn (3:33) 
n=1 
N 
— Yn — yn)xn (3.34) 
n=1 


3 也 叫 最 速 下 降 法 ( steepest descent )。 
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式 (3.31) 和 式 (3.32) 中 用 到 了 sigmoid 函数 的 微分 o (x) = o(x)(1 -GOD))。 可 以 看 出 ， 使 用 
sigmoid 函数 之 后 ， 最 终 的 表达 式 变 得 非常 简洁 。 对 俩 置 训 也 进行 同样 的 计算 ， 得 到 以 下 表 
达 式 。 








aE(w,b) 立 
pi (3.35) 


刘 三 1 


因此 ， 式 (3.27) 和 式 (3.28) 分 别 变 为 下 面 的 样子 。 





N 
WerD = w+ 人 — yn)xn (3.30) 


n=1 


N 
Bs VO Fp Ye i) en 


n=]1 


3.4.2.3 ”随机 梯度 下 降 法 与 小 批量 梯度 下 降 法 

使 用 梯度 下 降 法 ,理论 上 可 以 完成 逻辑 回归 的 训练 过 程 ， 但 在 实际 使 用 中 还 会 出 现 一 
个 问题 。 从 式 (3.36) 和 式 (3.37) 可 以 看 出 ， 无 论 更 新 哪个 参数 都 要 对 所 有 N 个 数据 求 和 。N 
较 小 还 好 ， 如 果 X 非 常 大 ， 数 据 就 无 法 一 次 性 放 入 内 存 中 ， 计 算 时 间 将 变 得 非常 久 。 

可 以 解决 这 个 问题 的 方法 就 是 随机 梯度 下 降 法 ( stochastic gradient descent )。 与 梯度 下 
降 法 先 计算 全 部 数据 的 和 再 去 更 新 参数 的 做 法 不 同 ， 随 机 梯度 下 降 法 是 每 次 随机 选择 一 个 
数据 去 更 新 参数 ， 即 用 以 下 表达 式 对 个 数据 进行 计算 。 











wetD) = w+ nt — yn xn (3.38) 
DU+ID = ph) + n(tn — yn) (3.39) 























名 称 中 之 所 以 有 “随机 ”二 字 ， 是 因为 它 选择 数据 的 顺序 是 随机 的 。 使 用 随机 梯度 下 降 法 ， 
就 能 以 梯度 下 降 法 更 新 一 次 参数 的 计算 量 完成 次 参数 更 新 ， 从 而 高 效 地 找到 最 优 解 。 不 
过 次 学 习 之 后 就 能 让 梯度 收敛 为 0 的 情况 很 少 ,需要 对 NN 个 数据 进行 反复 训练 。 反 复 
训练 全 部 数据 的 过 程 称 为 迭代 (epoch )， 每 次 迭代 都 会 先 把 数据 顺序 打 乱 再 进行 训练 ， 这 
样 训 练 结 果 就 更 不 容易 出 现 偏 颇 ， 容 易 得 到 更 优 的 解 。 为 了 方便 理解 ， 请 看 以 下 以 近似 
Python 语法 编写 的 随机 梯度 下 降 法 的 伪 代 码 。 





for epoch in range(epochs): 
shuffle(data) # 每 次 迭代 都 打 乱 数据 顺序 
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for datum in data: # 每 次 都 使 用 一 个 数据 去 更 新 参数 
params_grad = evaluate gradient(error_function, params, datum) 





params -= learning_rate * params_grad 


另外 ， 还 有 一 个 介 于 梯度 下 降 法 和 随机 梯度 下 降 法 之 间 的 存在 一 一 小 批量 梯度 下 降 法 
(mini-batch gradient descent )。 这 是 把 NN 个 数据 分 成 有 M(< V) 个 数据 的 小 块 (小 批量 ) 再 
进行 训练 的 方法 ，M 一 般 会 选择 50 ~ 500 的 值 。 因 为 小 批量 梯度 下 降 法 的 存在 ， 有 时 候 一 
般 的 梯度 下 降 法 也 被 称 为 批量 梯度 下 降 法 (batch gradient descent )。 在 小 批量 数据 的 训练 
中 ， 线 性 代数 的 运算 不 会 出 现 内 存 不 足 的 情况 ， 而 且 与 1 次 计算 1 个 数据 、 重 复 计算 多 次 
的 做 法 相 比 ， 这 种 方法 的 计算 更 加 高 效 。 它 的 伪 代 码 如 下 所 示 。 








for epoch in range(epochs ) : 
shuffle(data) 
batches = get batches(data, batch_size=M) 
for batch in batches: # 每 次 用 小 批量 数据 更 新 参数 


params_grad = evaluate gradient(error_function, params, batch) 























params -= learning_rate * params_grad 


“随机 梯度 下 降 法 ”有 时 也 指 这 里 的 小 批量 梯度 下 降 法 ， 由 于 小 批量 梯度 下 降 法 在 小 批量 的 
大 小 M = 1 时 相当 于 随机 梯度 下 降 法 ， 所 以 本 书 也 统一 称 它们 为 “随机 梯度 下 降 法 ”。 


3.4.3 实现 


逻辑 回归 是 最 适合 用 于 学 习 如 何 把 神经 网 络 的 理论 和 表达 式 转化 为 实现 的 方法 。 前 面 
只 用 NumPy 就 实现 了 简单 感知 机 ( 因为 表达 式 简单 )， 但 这 里 将 会 用 TensorFlow 和 Keras 
来 实现 逻辑 回归 。 我 们 来 看 一 看 用 不 同 库 编写 代码 的 写法 有 何不 同 ， 以 及 使 用 库 可 以 提升 
实现 哪 方 面 的 效率 。 这 里 以 简单 的 或 门 的 训练 为 例 ， 用 这 两 种 库 分 别 来 实现 一 遍 。 





3.4.3.1 使 用 TensorFlow 的 实现 

在 TensorFlow 中 参数 大 体 分 为 两 种 ， 一 种 是 有 实际 值 的 变量 ， 另 一 种 是 作为 值 的 “ 容 
器 " ， 可 以 重复 且 不 限 次 数 地 代入 实际 值 的 变量 。 前 者 主要 用 作 模 型 的 参数 ， 后 者 用 作 输 入 
数据 或 正确 的 输出 值 等 每 次 训练 过 程 中 都 会 发 生变 化 的 参数 。 下 面 让 我 们 通过 实际 的 例子 
去 理解 它们 吧 。 在 没有 特别 声明 的 情况 下 ， 下 面 这 两 行 import 语句 默认 是 需要 的 ， 后 面 不 
再 歼 述 。 
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import numpy as np 


import tensorflow as tf 











逻辑 回归 的 参数 是 权重 w 和 偏 置 2。 在 训练 或 门 时 ， 输 入 是 二 维 、 输 出 
以 用 TensorFlow 定义 如 下 。 


一 维 的 ， 所 


0 


w = tf.Variable(tf.zeros([2, 1])) 
b = tf.Variable(tf.zeros([1])) 





生成 变量 时 需要 调用 tf.Variable()， 这 样 就 可 以 用 TensorFlow 特有 的 类 型 来 处 理 数据 了 。 
tf.Variable() 的 中 间 是 tf.zeros()， 相 当 于 NumPy 的 np.zeros()， 同 样 用 于 生成 元 素 为 0 
的 (多 维 ) 数组 。 这 样 就 完成 了 权重 w 和 偏 置 b 的 初始 化 。 为 了 确认 w 的 内 容 ， 我们 尝试 
执行 print(w)。 不 过 执行 后 得 到 了 下 面 的 结果 ， 无 法 确认 数组 的 内 容 是 否 为 [0.0，0.0]。 

















Tensor("Variable/read:0", shape=(2, 1), dtype=float32) 


简单 的 print() 只 会 输出 TensorFlow 的 数据 类 型 。 至 于 如 何 确认 数组 的 内 容 ， 这 个 问题 后 
面 再 讲 。 

定义 了 模型 的 参数 之 后 ， 就 要 构建 实际 的 模型 了 。 模 型 输出 的 表达 式 是 y = o(w x + 5b)， 
如 果 不 用 TensorFlow 而 是 直接 定义 ， 它 会 被 定义 为 下 面 这 样 以 输入 x 为 参数 的 函数 。 




















defmy(x) 


return sigmoid(np.dot(w, x) + b) 


def sigmoid(x): 
return 1 / (1 + np.exp(-x)) 


而 如 果 用 TensorFlow， 可 如 下 书写 。 


x = tf.placeholder(tf.float32, shape=[None, 2]) 
t = tf.placeholder(tf.float32, shape=[None, 1]) 
y = tf.nn.sigmoid(tf.matmul(x, w) + b) 





表示 模型 输出 的 是 y = …… 的 部 分 ， 定义 输出 y 之 前 先 定义 所 需 的 输入 x 以 及 相应 的 (正确 
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值 ) 的 输出 t。 使 用 TensorFlow 时 无 须 定义 男 数 ， 基 本 上 可 以 按照 数学 表达 式 的 写法 实现 ， 
非常 直观 。 

与 用 函数 定义 时 一 样 ，y 在 这 里 没有 实际 的 值 ， 人 实现 这 个 效 
果 的 是 x、t 定义 式 中 的 tf.placeholder()。 正 如 “placeholder” 这 个 单词 的 含义 所 示 ， 这 
些 变量 相当 于 保存 数据 的 “ 容 右 ”， i a 直到 模型 训练 
等 实际 需要 数据 的 情况 下 再 代入 值 ， 并 对 表达 式 进 行 计算 即 可 。x 的 shape=[None,2] 里 的 2 
相当 于 输入 向 量 是 二 维 的 。 虽然 这 次 的 数据 是 {0, 1} 的 组 合 ， 数 据 个 数 是 4， 不 过 这 里 我 们 
把 数据 个 数 设 为 None， 以 表示 “ 容 需 ”中 的 数据 数量 可 变 。 

在 模型 化 时 ， 为 了 对 参数 进行 优化 ,在 定义 好 模型 的 输出 之 后 ， 我 们 求 得 了 交叉 业 误 
差 函 数 。 用 TensorFlow 同样 可 以 按照 数学 表达 式 的 形式 去 定义 。 







































































N 
E(w,b) =— 2 {inlogyn + (1 ~ tn)log(l ~ yn)} (3.40) 


n=1 


该 函数 表达 式 可 以 转化 为 下 面 这 样 的 代码 。 
CrossEentropy = tf.reduce sum(t* "tf.logCy) e100=t)* tf.log(1 = y)) 


tf.reduce_sum() 相当 于 NumPy 的 np.sum()。 

确定 表达 式 时 ， 为 了 进行 函数 的 最 优化 ， 需 要 对 交叉 炉 误 差 限 数 的 各 个 参数 实施 偏 微 
分 、 求 梯度 ， 然 后 应 用 (随机 ) 梯度 下 降 法 。 而 如 果 使 用 TensorFlow， 只 需 1 行 代码 就 能 
实现 ,不 需要 自己 去 计算 梯度 。 


train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy) 











GradientDescentOptimizer() 的 参数 0.1 表示 的 是 学 习 率 。 这 个 代码 读 起 来 就 是 “通过 ( 随 
机 ) 梯度 下 降 法 ， 对 交叉 信 误 差 函 数 进行 最 小 化 "， 非 常 直 观 。 

到 此 ， 模 型 训练 部 分 的 定义 和 实现 就 完成 了 。 在 实际 进行 训练 之 前 ， 让 我 们 先 编写 检 
查 训 练 结果 是 否 正确 的 代码 。 逻 辑 回 归 中 模型 的 输出 y 是 概率 ， 所 以 神经 元 是 否 激活 要 由 
y > 0.5 是 否 满足 来 决定 。 代 码 如 下 所 示 。 












































correct prediction = tf.equal(tf.to float(tf.ereater(y, 0.5)), t) 
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如 此 一 来 ， 模 型 的 设置 就 完成 了 ， 下 面 开 始 实现 实际 训练 的 部 分 。 首 先 定义 用 于 训练 
的 数据 。 


XpPEaanayG IO oD 
vnpearmmay Quo II 避 加 加 风 


使 用 TensorFlow 时 ， 计 算 必 须要 在 名 为 会 话 (session ) 的 数据 处 理 流程 里 进行 。 不 过 也 不 
需要 进行 什么 复杂 的 操作 ， 只 需 如 下 编写 即 可 。 








init = tf.global variables_initializer() 
sess = tf.Session() 


sess.run(init) 








这 样 才 算 是 对 定义 模型 时 声明 的 变量 和 表达 式 进行 了 初始 化 。 训 练 本 身 非常 简单 ， 只 需 如 
下 编写 即 可 。 





for epoch in range(200): 
sess.run(train®step, feedrdict=+{ 
> XK 
GE 
}) 




















sess.run(train_step) 相当 于 通过 梯度 下 降 法 进行 训练 ， 这 时 使 用 feed_dict， 可 以 向 作为 
placeholder 的 x 和 +t 代入 实际 的 值 。 这 就 像 把 值 “feed”( 喂 ) 给 placeholder 一 样 。 另 外 ， 
这 里 设置 的 迭代 数 为 200。 这 次 数据 xX 是 一 次 性 传 过 去 的 ， 所 以 相当 于 应 用 了 批量 梯度 下 
降 法 。 

让 我 们 确认 一 下 训练 的 结果 吧 。 可 以 用 .eval() 来 确认 诸如 神经 元 是 否 激 活 、 有 没有 
被 正确 地 分 类 等 问题 。 











classified = correct prediction.eval(session=sess, feed dict={ 
DE DC 
Te Nf 

ny 

print(classified) 
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由 于 correct_prediction 中 也 没有 代入 实际 的 值 ， 所 以 也 需要 用 到 feed_dict。 执 行 后 得 到 
的 结果 如 下 ， 


eave 
Wawel 
nve 
[TU 








可 以 看 到 已 经 完成 了 或 门 的 训练 。 此 外 ， 还 可 以 通过 类 似 代码 得 到 与 各 个 输入 相对 应 的 输 
出 的 概率 。 














prob = y.eval(session=sess, feed dict={ 
> 
op Ne 

br) 

print(prob) 


得 到 的 结果 如 下 所 示 。 可 以 看 出 确实 很 好 地 输出 了 概率 。 


[[ 0.22355038] 
[ 0.91425949] 
[ 0.91425949] 
[ 0.99747425]] 




















而 通过 tf.Variable() 定义 的 变量 的 值 ， 要 通过 sess.run() 获取 而 不 是 .eval()。 例如 
我 们 像 下 面 这 样 ， 























print('w:', sess.run(w)) 


print@ bi sesse rundb)) 


就 可 以 得 到 如 下 结 


w: [[ 3.61188436] 
a0lss430ly 
b: [-1.24509501] 
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以 上 就 是 通过 TensorFlow 进行 实现 的 流程 。 这 些 流 程 可 以 如 下 总 结 。 


1. 定义 模型 


2. 定义 误差 函数 

3. 定义 最 优化 的 方法 
4. 会 话 初 始 化 

5. 训练 








这 次 练习 的 是 基础 的 实现 方法 ， 后面 我 们 会 再 去 试 着 实现 一 些 更 高 级 的 内 容 。 
最 后 ， 把 所 有 代码 汇总 到 一 起 来 看 一 下 。 


import numpy as np 


import tensorflow as tf 


异型 的 设置 


tf.set_random_seed(0) # 随机 数 的 seed 


w = tf.Variable(tf.zeros([2, 1])) 
b = tf.Variable(tf.zeros([1])) 


x = tf.placeholder(tf.float32, shape=[None, 2]) 
t = tf.placeholder(tf.float32, shape=[None, 1]) 
y = tf.nn.sigmoid(tf.matmul(x, w) + b) 


GrossEentropy = tfsreduceBsum( te tialosCy Or tf lo vy 


train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy) 


correctprediction — tfsequal(tft tonfloat(tt ereater(y 0.5)) 


模型 的 训练 


# 或 门 

Xe =npsarmaylom oo el el) 
ve npsarnmay ol ee 

# 初始 化 


init = tf.global variables_initializer() 
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sess = tf.Session() 


sess.run(init) 


# 训练 
for epoch in range(200): 
sess.run(train_step, feed dict={ 
re 
echt 
2) 


检查 训练 结果 

classified = correct prediction.eval(session=sess, feed dict={ 
XK 
Ee 

a) 


prob = y.eval(session=sess, feed dict={ 
Xe 

> 

print( classmfred 

print(classified) 

print() 

print( outputlprobabrnlrty  ) 

print(prob) 


3.4.3.2 ”使 用 Keras 的 实现 
用 TensorFlow 实现 时 需要 自己 用 代码 编写 表达 式 ， 而 用 Keras 实现 则 无 须 考 虑 x、y 等 
内 容 ， 可 以 用 更 简单 的 代码 定义 模型 。 使 用 Keras 实现 逻辑 回归 的 代码 如 下 所 示 。 





import numpy as np 
from keras.models import Sequential 
from keras.layers import Dense, Activation 


from keras.optimizers import SGD 


model = Sequential([ 
Dense(input_dim=2, units=1), 
Activation('sigmoid') 


J 
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Sequential() 是 定义 层级 结构 的 方法 。 我 们 通过 向 这 个 方法 代入 实际 的 层 来 设置 模 
型 。 首先 用 Dense(input_dim=2，units=1) 定义 一 个 输入 为 二 维 、 输 出 为 一 维 的 网 络 结构 的 
层 "%， 这 相当 于 创建 了 一 个 如 下 表达 式 所 代表 的 层 。 


WIX1 + WX2+b (3.41) 








要 表示 神经 元 的 输出 ， 还 需要 激活 函数 ， 所 以 通过 Activation('sigmoid') 来 创建 以 下 表达 
式 所 代表 的 层 。 

















y= 0o(wWIx1 + wx2 十 D) (3.42) 























这 样 模型 的 输出 也 定义 好 了 。 另 外 ， 事 先 只 声明 Sequential()， 之 后 再 通过 model.add() 不 
断 添加 层 的 写法 也 是 可 以 的 。 具 体 如 下 所 示 。 





model = Sequential() 
model.add(Dense(input_dim=2, units=1)) 
model.add(Activation('sigmoid')) 











只 需 用 下 面 1 行 代码 就 可 以 表示 随机 梯度 下 降 法 了 。 


model.compile(loss='binary_crossentropy', optimizer=SGD(1r=0.1)) 





这 里 的 1r 指 的 是 学 习 率 。 
使 用 Keras， 模 型 的 训练 也 只 需 1 行 代码 。 像 下 面 这 样 准备 好 或 门 的 输入 和 正确 的 输出 
数据 ， 








Xe npsamayC ope oo 0 全 四 
Ys maarrey lol i I ly 


然后 执行 model.fit() 即 可 。 


model.fit(X, Y, epochs=200, batch_size=1) 











Pp4 使 用 Keras 1 时 写作 output_dim=1， 使 用 Keras 2 时 代码 变 为 units=1 了 。 
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FE 


代码 中 的 epochs 表示 远 代 数 *”，batch_size 表示 (小 ) 批量 的 大 小 。 就 像 这 样 ，( 只 ) 用 这 
些 代码 我 们 就 实现 了 人 逻辑 回归 的 训练 。 使 用 以 下 代码 检查 训练 结果 ， 可 以 得 到 分 类 的 结 
( 神经 元 是 否 激 活 ) 以 及 输出 的 概率 。 











classes = model.predict_ classes(X, batch_size=1) 


prob = model.predict proba(X, batch_size=1) 


因为 使 用 Keras 能 够 非常 轻松 地 进行 实现 ， 所 以 它 适用 于 想 先 验证 一 下 模型 或 简单 地 做 
一 下 实验 等 场景 。 这 次 用 到 的 所 有 代码 整理 如 下 。 





import numpy as np 
from keras.models import Sequential 
from keras.layers import Dense, Activation 


from keras.optimizers import SGD 


np.random.seed(0) # 随机 数 的 seed 


模型 的 设置 

model = Sequential([ 
Dense(input_dim=2, units=1), 
Activation('sigmoid') 


1] 


# model = Sequential() 
# model.add(Dense(input_dim=2, units=1)) 
# model.add(Activation('sigmoid')) 


model.compile(loss='binary_crossentropy', optimizer=SGD(1r=0.1)) 


模型 的 训练 

# 或 门 

X= npRaelnmaylo oO IO IIS 属国 
venpsarnrayOu on ne 


Pp5 这 里 也 是 ， 在 Keras 1 中 写作 nb_epoch=200， 从 Keras 2 开始 就 变 为 epochs=200 了 。 
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model.fit(X，Y，epochs=200，batch_size=1) 


丛 查 训练 结 
classes = model.predict_ classes(X, batch_size=1) 
prob = model.predict_ proba(X, batch_size=1) 


print("classified:") 
print(Y == classes) 
Pan 全 





print('output probability:') 
print(prob) 


执行 以 上 代码 之 后 ， 可 以 看 到 Keras 会 打印 出 训练 的 进度 。 


Epoch 1/200 


4/4 [==============================] - We]ose 0 5392 
Epoch 2/200 
4/4 [==============================] - Qs = Joss 0 5080 


4/4 [==============================] - Ws = |]oss= "0O 1057 
Epoch 200/200 
4/4 [==============================] - os - loss: 0.1053 


得 到 的 结果 如 下 所 示 。 


classified: 
四 vedl 
Wvedl 
[ True] 
[ETSH| 


output probability : 
[[ 0.21472684] 
[OSIRESGXTS 
[ 0.92112124] 
Woe 
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可 以 看 到 训练 圆满 完 


3.4.4 ”了 5 于 sigmoid 函数 与 概率 密度 函数 、 累 积分 布 函数 


在 前 面 的 章节 中 ， 逮 辑 回 归 的 激活 函数 用 的 是 sigmoid 子 数 ， 那 么 为 什么 可 以 把 
sigmoid 函数 的 输出 当 作 概率 呢 ?“ 输 出 的 范围 在 0 到 1 之 间 ， 所 以 是 概率 ”这 个 理由 还 不 
够 充分 。 

用 于 表示 概率 的 函数 有 概率 密度 函数 。 对 于 概率 变量 XX， 当 关 大 于 等 于 a 且 小 于 等 于 
b 时 的 概率 表达 式 如 下 所 示 。 




















b 
Pla< X<b):= 小 f(x)dx (3.43) 




















概率 密度 函数 指 的 就 是 表达 式 中 的 函数 f(x)。 由 于 它 是 概率 ， 所 以 还 需要 满足 以 下 条 件 。 
Poo 和 区 < oo) = JJ)dxr =1 (3.44) 


另外 ， 与 概率 密度 函数 相对 ， 表 示 概 率 变 量 X 小 于 等 于 x 的 概率 的 函数 则 称 为 累积 分 布 函 
数 。 令 F(x) := P(X < x)， 累积 密度 函数 可 以 如 下 表示 。 





F(x) = "| | f(Ddt (3.45) 








这 也 就 是 说 ,概率 密度 函数 和 累积 密度 函数 之 间 有 以 下 关系 成 立 。 
F(x) = f (7%) (3.46) 
下 面 看 一 个 具体 示例 ， 有 图 3.13 所 示 的 概率 密度 函数 y = f(x)， 其 表达 式 如 下 所 示 。 
4x-4 (1<x<3) 


f(x)=4 -4x+8 G3<x<?2) (3.47) 
0 (BD 





根据 表达 式 ， 可 以 像 下 面 这 样 计算 出 1 < x < 3 时 的 概率 。 


/ | f(x)dx = [2x? -4x]; 5 (3.48) 
1 
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0 1 


图 3.13 ”概率 密度 函数 的 示例 








也 就 是 说 ， 概 率 密度 函数 f(x) 在 1<x<3 范 围 内 的 面积 所 表示 的 是 概率 。 这 里 需要 注意 
的 是 ， 概 率 密度 函数 的 值 本 身 有 可 能 大 于 1， 比如 f(3) = 2。 而 累积 分 布 函数 是 “概率 的 累 
耻 ”， 所 以 0 < F(x) < 1 必 成 立 。 

ns 数 都 是 表示 概率 的 函数 。 尤 其 是 累积 分 布 函 数 ， 它 的 值 在 
0 到 1 之 间 ， 适 合用 来 表示 “输出 为 概率 ”的 函数 ， 从 前 文 的 说 明 中 我 们 不 难得 出 这 个 结 
pe et tes E 取 特定 值 的 函数 并 不 合适 ， 它 会 让 概率 变量 X 的 
分 布 呈现 (极其 ) 不 对 称 的 状态 。 因 此 ,我们 考虑 使 用 最 常见 的 正 态 分 布 来 作为 概率 变量 
的 分 布 。 平 均值 为 4、 方 差 为 o? 的 正 态 分 布 的 概率 密度 函数 如 下 所 示 。 





























f(x) = 0 309 (3.49) 


1 
V2no 





图 3.14 是 4= 0 时 的 概率 密度 函数 和 累积 分 布 函 数 的 图 形 。 当 然 ， 正 态 分 布 的 累积 分 布 函 
数 的 值 也 在 0 到 1 的 范围 内 。 
逻辑 回归 的 激活 函数 用 的 是 sigmoid 函数 ， 而 用 这 个 正 态 分 布 的 累积 分 布 函数 代替 
ee 函数 成 为 激活 函数 的 模型 就 称 为 probit 回归 ( probit regression )。 虽 然 有 些 人 认为 
函数 更 适合 用 作 “ 输 出 概率 的 函数 "， 可 是 (基本 上 ) 没 人 会 把 probit 回归 用 在 神经 
en 这 是 为 什么 呢 ? 我 们 来 思考 一 下 使 用 标准 正 态 分 布 的 累积 分 布 函数 〈 设 它 
= p(x) ) 进行 神经 元 建 模 的 情况 。 这 时 的 输出 如 下 所 示 。 
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图 3.14 正 态 分 布 的 概率 密度 函数 ( 左 ) 和 累积 分 布 函数 ( 右 ) 


NY 
w x+b 1 _ wTt+p) 
一 ee 7 
一 co V2 


= p(wix +b)= (3.50) 








但 从 这 里 开始 ， 应 用 随机 梯度 下 降 法 需要 进行 必要 的 梯度 计算 ， 这 个 过 程 不 但 烦琐 而 且 
困难 。 因 此 ， 大 家 才 会 使 用 “形式 与 正 态 分 布 的 累积 密度 函数 相似 ， 计 算 却 很 简单 ”的 
sigmoid 子 数 。 图 3.15 是 把 平均 值 x = 0.0、 标 准 差 o = 2.0 的 正 态 分 布 的 累积 分 布 函数 与 
sigmoid 函数 重合 显示 在 一 起 的 图 形 。 























图 3.1$ sigmoid 函数 ( 黑 线 ) 与 正 态 分 布 的 累积 分 布 函 数 ( 灰 线 ) 的 比较 
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在 深度 学 习 等 信息 处 理 领 域 ， 理 论 当 然 很 重要 ， 但 像 这 种 考虑 “实际 能 和 否 计算 ”的 工 
程 化 方法 也 很 重要 。 


3.4.5 从 梯度 下 降 法 和 局 部 最 优 解 
梯度 下 降 法 是 求 使 函数 f(x) 最 小 的 x = x*， 即 求 x* = argminf(x) 的 方法 ， 其 表达 式 如 


下 所 示 。 
XK+D) ~ x af’(x®) (w > 0) (3.51) 


为 了 方便 理解 ,这 里 考虑 x 为 标量 x 的 情况 。 从 图 3.16 可 以 看 出 ， 沿 着 梯度 反方 向 前 进 ，x 
的 确 越 来 越 接近 x*。 











图 3.16 梯度 下 降 法 的 例子 




















但 是 如 果 a 的 值 过 大 , x 的 值 就 不 能 很 好 地 收敛 。 比 如 对 ,Fo = x 从 x = 1 开始 应 用 
梯度 下 降 法 ， 当 ac = 1 时 的 计算 过 程 如 下 所 示 。 


x(0) = 1 

xD = 1-2 = -1 
x2 = -1+2 = 1 
XG) = = 一 | 


1 和 =:22 


可 以 看 到 值 一 直 在 最 优 解 x = 0 的 两 边 变 来 变 去 。 
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那么 只 要 把 w 变 小 就 可 以 了 吗 ? 答案 是 否定 的 。 当 w 过 小 时 ， 主 要 存在 以 下 两 个 问题 。 


@ 收敛 到 x* 为 止 的 迭代 数 会 增加 
@ 难以 得 到 真正 的 最 优 解 x* 


第 一 个 问题 不 难 理解 ， 如 果 ca 变 小 , 那么 x 一 次 变化 的 量 自 然 也 会 变 小 。 那 么 第 二 个 问题 
是 什么 意思 呢 ? 比如 前 面 图 3.16 中 的 x*， 乍 一 看 它 的 确 是 让 函数 最 小 化 的 点 。 但 是 ， 如 
果 函 数 (的 左 侧 ) 实际 上 是 图 3.17 所 示 的 样子 ， 那 答案 还 一 样 吗 ? 从 图 中 可 以 看 出 ， 在 这 
种 情况 下 从 x 开始 通过 梯度 下 降 法 得 到 的 解 (假设 = x’) 并 不 是 真正 的 解 x*。 只 是 x 点 
的 梯度 也 是 0， 所 以 从 算法 的 角度 来 看 这 个 解 并 没有 问题 。 像 这 样 ， 因 为 让 函数 在 某 个 点 
(附近 ) 取得 了 最 小 值 而 被 当 作 解 的 x' 称 为 局 部 最 优 解 。 与 此 相对 ， 真 正 的 解 x* 则 称 为 全 
局 最 优 解 。 





















































x* x x xD 本 加 


图 3.17 局 部 最 优 解 与 全 局 最 优 解 











只 要 初始 值 x 是 随机 选择 的 ， 那 就 很 难 避 开 局 部 最 优 解 。 但 是 如 果 a 的 值 较 大 ， 那 
么 至 少 在 图 3.17 的 函数 中 是 可 以 跳 过 x ,得 到 x* 的 。 如 果 a 较 小 ， 那 么 是 否 陷入 局 部 最 优 
解 主要 就 取决 于 初始 值 了 。 而 且 只 要 有 一 次 接近 局 部 最 优 解 的 情况 ， 最 终 就 很 可 能 收敛 于 
局 部 最 优 解 了 。 

总 结 一 下 问题 点 ， 就 是 如 果 a 较 大 ， 即 使 降低 了 陷入 局 部 最 优 解 的 风险 ， 也 有 难以 收 
敛 的 问题 ; 反之 ， 如 果 a 较 小 ,虽然 收敛 没有 问题 ,但 容易 陷入 局 部 最 优 解 。 所 以 实际 在 
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实现 算法 时 ， 经 常 采用 让 c“ 一 开始 较 大 ， 然 后 慢 慢 变 小 ”的 方法 来 避免 出 现 使 用 梯度 下 
降 法 时 会 出 现 的 问题 。 换 言 之 ,a 不 是 一 成 不 变 的 ,实际 用 的 是 a。 这 样 就 能 够 做 到 “ 先 
在 大 范围 内 搜索 值 ， 然 后 再 收敛 "。 至 于 如 何 能 将 ag“ 慢 慢 变 小 "， 人 们 研究 了 多 种 高 效 的 
方法 ， 具 体内 容 将 在 第 4 章 介 绍 。 但 是 ,不 管用 多 好 的 方法 设置 ag, 还 是 有 可 能 会 陷入 局 
部 最 优 解 。 在 神经 网 络 中 也 有 训练 后 得 到 的 参数 是 局 部 最 优 解 的 情况 。 随 着 输入 维度 的 
增加 ， 找 到 全 局 最 优 解 愈 发 困难 。 所 以 在 现实 中 ， 比 起 花费 大 量 时 间 寻 找 不 确定 能 否 找 到 
的 全 局 最 优 解 ， 还 是 通过 梯度 下 降 法 等 方法 在 有 限时 间 内 找到 实用 的 (局 部 ) 最 优 解 更 加 
可 行 。 







































































多 分 类 逻辑 回归 


3.5.1 softmax 函数 


到 目前 为 止 , 我 们 看 到 的 模型 (简单 感知 机 、 逻 辑 回 归 ) 都 是 把 神经 元 分 为 激活 和 不 
激活 这 两 种 模式 的 模型 。 但 是 ， 现 实生 活 中 会 有 很 多 想 对 更 多 种 模式 进行 分 类 或 预测 的 情 
况 。 比 如 ， 与 预测 明天 下 雨 和 不 下 雨 这 两 种 模式 相 比 ， 明 显 是 预测 晴 、 多 云 、 雨 和 雪 这 四 
种 模式 的 模型 更 加 实用 。 这 种 “模式 ”一 般 被 称 为 类 别 ， 像 我 们 前 面 看 到 的 模型 那样 把 数 
据 分 成 两 种 模式 叫 作 二 分 类 ， 分 成 更 多 种 模式 叫 作 多 分 类 。 

简单 感知 机 和 逮 辑 回归 无 法 进行 多 分 类 。 但 是 ， 就 像 把 激活 函数 从 阶 跃 函 数 变 为 
sigmoid 函数 ， 使 输出 值 变 为 概率 的 做 法 一 样 ， 只 要 对 sigmoid 函数 的 形式 稍 作 改变 ， 就 能 
进行 多 分 类 了 。 这 样 的 函数 称 为 softmax 函数 (softmax function )， 如 式 (3.52) 所 示 ， 这 是 n 
维 向 量 x = (xl Xx2… xn) 的 函数 。 



























































softmax(x)i = . G=1,2,...,n) 
三 (3.52) 








>》 六 = (3.53) 


Og<y<1 (i=1,2,...,n) (3.54) 
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下 面 看 一 下 具体 示例 。 比 如 有 x = (2 1 1)*， 那么 可 以 得 到 y = (0.5761 0.2119 0.2119)I。 再 比 
如 x = (10321)"， 那么 可 以 得 到 y = (0.9986 0.0009 0.0003 0.0001)T。 其 中 各 元 素 可 以 用 下 
面 的 通用 表达 式 来 表示 。 














y1 e™! 
y2 1 e™? 


是 n : 

。 | 
yn > @” 
所 


像 这 样 ， 向 量 的 元 素 通 过 softmax 函数 进行 标准 化 之 后 ， 就 可 以 作为 “输出 概率 ”使 用 了 ， 
所 以 非常 适合 用 作 神 经 网 络 的 模型 。 
男 外 ， 先 如 下 定义 式 (3.55) 右边 的 分 母 ， 





(333) 























Z2:= De7 (3.56) 


然后 试 着 求 softmax 函数 的 微分 。 首 先 当 i =j 时 ， 


Oy eTZ ee 








= ») (3.57) 
然后 ， 当 iz#j 时 ， 
Oy:  —e”ie’™ 
Bx = 72 = yy (3.58) 


把 二 者 汇总 起 来 ， 就 得 到 了 式 (3.59)。 


I 
中- ) (= es 


Ox —yiyj (i#)) 


3.5.2 模型 化 


下 面 我 们 来 看 一 看 如 何 把 模型 扩展 为 支持 多 分 类 的 模型 ， 以 及 softmax 函数 在 模型 中 
起 到 了 什么 作用 。 我 们 来 考虑 将 数据 分 为 K (个 ) 类 别 的 情况 。 此 时 因为 输出 有 多 个 ， 所 
以 神经 网 络 的 模型 如 图 3.18 所 示 。 
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输入 输出 


y1 


Yk 





图 3.18 有 多 个 输出 的 模型 








请 注意 这 里 的 输出 了 不 是 标量 ， 而 是 维 向 量 。 
J1 
sl 4 
了 天 
虽然 数据 变 成 玉 个 类 别 了 ， 但 基本 思路 与 二 分 类 时 没有 差别 。 输 出 虽然 是 向 量 了 ， 但 
每 个 神经 元 的 结构 是 不 变 的 ， 所 以 着 眼 于 输出 为 yx 的 神经 元 ， 得 到 神经 元 的 输出 如 下 。 








COwkIXI + WEIX2 + + WEMXM + bk) 
f (wix 十 bx) (3.60) 


Yk 


这 与 前 面 的 表达 式 形式 相同 ， 只 不 过 在 这 里 wx = (wa we :… wy) 。 接 着 进行 如 下 定义 。 


a 正 
WwW 二 (Wi Wk WK) 
W11 。。。 win 。。。 WTAMZ 
(3.61) 
= [WAL ”Wi i WkxM 
WRI Wkn °°** WKM 
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| (3.62) 
bx 
如 此 一 来 ， 模 型 整体 的 输出 可 以 写作 以 下 形式 。 
y= f(Wx+b) (3.63) 


式 (3.61) 中 的 殉 叫 作 权 重 和 矩阵 ， 式 (3.62) 中 的 5 叫 作 偏 置 向 量 。 选 用 softmax 函数 作为 这 里 
的 激活 函数 了 (:)， 那 么 y 就 会 满足 式 (3.53) 和 式 (3.54)， 因 此 该 模型 支持 多 分 类 。 这 种 模型 
称 为 多 分 类 逻辑 回归 ( multi-class logistic regression )。 不 过 ， 也 有 将 二 分 类 包含 在 内 ， 把 这 
种 模型 统一 称 为 “逻辑 回归 ”的 叫 法 。 本 书 在 没有 特别 说 明 的 情况 下 亦 同 。 

那么 ， 如 何 表示 输入 数据 实际 被 分 类 到 各 类 别 的 概率 呢 ? 设 输 入 x 被 分 类 到 某 个 
类 别 的 概率 变量 为 C。 在 二 分 类 的 情况 下 ，C = 0 或 者 C = 1， 而 在 多 分 类 的 情况 下 ， 
C =k(k = 1,2,.… ,KK)。 对 于 某 个 神经 元 的 输出 次， 这 是 x 被 分 类 到 类 别 k 的 概率 ， 它 的 计 
算式 如 下 所 示 ( 指数 函数 用 exp( ) 表示 )。 





exp (wix 十 bx) 





p(C = KIx)= y= (3.64) 


和 exp (wix 十 中 

既然 已 经 用 概率 表达 式 表 示 了 输出 ， 接 下 来 就 要 对 参数 WW、b 进行 最 大 似 然 估计 ， 让 
我 们 思考 一 下 它 的 似 然 丽 数 。 对 于 X 个 输入 数据 xn(a = 1 2……,N)， 设 其 对 应 的 正确 分 类 
的 数据 〈 向 量 ) 为 如。 需要 注意 当 z 属于 分 类 时 ,4 的 第 7 个 元 素 tnj 的 值 如 下 所 示 。 


tnj = | 人 (3.65) 

















这 种 向 量 元 素 中 只 有 一 个 是 1， 其 余 都 是 0 的 表示 方法 称 为 1-of-K 表示 ( 1-of-K 
representation ) ”6。 这 时 使 用 := softmax(Wxn +5)， 可 以 得 到 


6 1-of-K 表示 的 实现 也 被 称 为 独 热 编码 ( one-hot encoding )。 


3.5 多 分 类 逻辑 回归 





105 





;一 = 
7 


L(W,b) 
(3.00) 








这 个 表达 式 ， 然 后 只 要 求 得 使 其 最 大 的 参数 即 可 。 由 于 这 个 函数 也 是 积 的 形式 ， 所 以 采用 
与 二 分 类 时 同样 的 方法 ， 先 取 对 数 ， 然 后 反 转 符号 ， 即 把 问题 转化 为 求 下 面 这 个 多 分 类 版 
的 交叉 炉 误 差 函 数 的 最 小 化 。 





E(W,b) := —log L(W,5b) 


NK 
= -ink log ynx 


n=1k=1 


(3.67) 








所 以 只 要 计算 每 个 参数 的 梯度 ， 就 可 以 和 以 前 一 样 应 用 梯度 下 降 法 了 。 

首先 来 求 权 重 W 的 梯度 吧 。 根据 到 = (wi w2……wg)! 来 简化 表达 式 ， 对 表达 式 进行 变 
形 。 首 先 设 E:= E(W,5) = E(wi,w2,… ,WK,5)， 然 后 求 wj 的 梯度 。7 是 天 维 单位 矩阵 ， 设 
an := Wxn +b5， 如 下 进行 推导 。 




















N 天 
oF 0 Oynk Oanj 
= 一 = 一 (tnx log ynx) (3.68) 
Owj 2 > Oynkx Oanj om 
AN 天 
tnk Oyn 
= by 2 Dk 时 (3.69) 
n=1 £1 Ynk Odnj 
N 天 
tnk 
1 > by — ynk (lj 一 ynj Xn (3.70) 
n=1 k=1 Ynk 
N 天 天 
> tnx kj i > tnkgynj | Xn (3.71) 
n=1 \k=1 k=1 
N 
= — >》 人 (yz (3.72) 





这 里 ， 从 式 (3.69) 到 式 (3.70) 的 变形 中 用 到 了 softmax 函数 的 微分 。 用 同样 方法 计算 bj 的 
梯度 。 


8 
ap, 宇 — 》(mi = ynj) (3.73) 
3 


n=1 
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最 终 汇总 后 的 表达 式 如 下 所 示 。 


aE 
= 》 (tyn)xl (3.74) 
3W =- 
aE 和 
Re (fn — yn) (3.75) 
67 2 


3.5.3 ”实现 


3.5.3.1 使 用 TensorFlow 的 实现 
接 下 来 ， 让 我 们 使 用 TensorFlow 来 实现 下 面 这 个 简单 的 例子 。 





@ 有 2 个 输入 、3 个 输出 的 三 分 类 逻辑 回归 
@ 每 个 分 类 都 生成 遵循 平均 值 j #0 的 正 态 分 布 的 样本 数据 
@ 每 个 分 类 都 有 100 个 数据 ， 即 对 300 个 数据 进行 分 类 











另外 ， 前 面 在 实现 或 门 的 分 类 时 使 用 了 批量 梯度 下 降 法 进行 训练 ， 这 次 我 们 将 使 用 (小 
批量 ) 随机 梯度 下 降 法 。 用 这 个 方法 需要 实现 随机 打 乱 数据 的 功能 ， 而 sklearn*" 库 中 的 
sklearn.utils.shuffle 提供 了 此 功能 ， 所 以 我 们 使 用 它 。 





from sklearn.utils import shuffle 


首先 ， 定义 此 次 实验 中 需要 用 到 的 变量 。 








M = 2 # 输入 数据 的 维度 
[3 # 分 类 数 

n = 100 # 每 个 分 类 的 数据 个 数 
N = nx K # 全 部 数据 的 个 数 


然后 生成 样本 数据 ， 如 下 所 示 。 





X1 = np.random.randn(n, M) + np.array([0, 10]) 
X2 = np.random.randn(n, M) + np.array([5, 5]) 
X3 = np.random.randn(n, M) + np.array([10, 0]) 














7 sklearn 是 scikit-learn ( http://scikit-learn.org ) 库 的 简称 ， 也 是 import 该 库 中 的 功能 时 所 用 的 名 称 。 
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X = np.concatenate((X1, X2, X3), axis=0) 
Y = np.concatenate((Y1, Y2, Y3), axis=0) 
样本 数据 的 分 布 如 图 3.19 所 示 。 
14 T T 
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图 3.19 样本 数据 的 分 布 








以 上 就 是 初始 设置 阶段 的 工作 。 然 后 我 们 来 定义 模型 。 使 用 TensorFlow 时 ， 只 需 把 前 
面 二 分 类 代码 中 的 sigmoid 部 分 替换 为 softmax 即 可 实现 多 分 类 **。 








tf.Variable(tf.zeros([M, K])) 
b = tf.Variable(tf.zeros([K])) 


x = tf.placeholder(tf.float32, shape=[None, M]) 








>8 有 一 点 需要 注意 , 式 (3.61) 中 的 W 是 XK x M 和 窍 阵 ， 而 代码 中 定义 的 W 却 是 M x 天 矩阵 。 之 所 以 有 这 样 的 
别 ， 是 因为 在 定义 模型 时 考虑 的 是 一 个 个 的 数据 ， 即 在 输入 是 向 量 x 的 前 提 下 定义 输出 的 表达 式 ， 而 在 实 
时 要 考虑 的 输入 数据 x 却 是 小 批量 (矩阵) 的 。 但 在 数学 表达 式 上 只 要 进行 W = WT 的 置换 即 可 同样 进行 模 
型 化 ， 这 个 区 别 并 不 影响 解决 问题 。 今 后 也 会 碰 到 这 种 由 于 各 种 各 样 的 原因 导致 理论 与 实现 不 完全 一 致 的 情 
况 ， 届 时 请 不 要 感到 困惑 。 








号 以 
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t = tf.placeholder(tf.float32, shape=[None, K]) 
y = tf.nn.softmax(tf.matmul(x, W) + b) 


虽然 可 以 遵照 式 (3.67) 来 定义 交叉 焕 误差 函数 ,但 由 于 这 次 使 用 小 批量 数据 进行 计算 ， 所 
以 为 了 求 得 每 个 小 批量 的 平均 值 ， 我 们 使 用 tf.reduce_mean()。 








crossoentropy ="tf.reducermean(=tf.reduce®sum(t * tf.log(y), 


reduction_indices=[1])) 


代码 中 的 reduction_indices 表示 沿 哪个 方向 计算 和 。 我 们 使 用 随机 梯度 下 降 法 对 交叉 业 误 
差 图 数 进行 最 小 化 ， 代 码 如 下 所 示 。 





train step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_ entropy) 








男 外 ,检查 分 类 是 否 正确 ， 只 要 看 是 否 满足 TS Yk rmin tnk 即 可 ,代码 如 下 所 示 。 


correct prediction = tf.equal(tf.aremax(y.1) tf.argmax(t, 1)) 





接着 我 们 来 训练 模型 。 令 小 批量 的 大 小 为 50， 小 批量 的 个 数 可 以 事先 在 代码 中 定义 。 


batch_size = 50 # 小 批量 的 大 小 
n_batches = N // batch_size 


在 随机 梯度 下 降 法 中 ， 每 次 迭代 过 程 都 需要 打 乱 数据 ， 所 以 训练 代码 如 下 所 示 。 





for epoch in range(20): 
Xa shutile( 


for i in range(n_batches): 
start = i * batch_ size 


end = start + batch_size 


sess.run(train step, feed dict={ 
XXLstartaend 
Gv startaangl 

jo) 


逻辑 回归 
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这 里 的 start 和 end 表示 各 小 批量 在 整体 数据 中 处 于 什么 位 置 。 这 样 就 完成 了 模型 的 训练 ， 


让 我 们 检验 一 下 成 果 吧 。 
确 地 分 类 。 
XOYa shnurfile(lCeY 


classified = correct prediction.eval(session=sess, feed dict={ 
XE 
3 


br) 











>» os 
vrs el 





prob = y.eval(session=sess, feed dict={ 


KX 


}) 


pnt(@e classied 


Xx_[0:10] 


print(classified) 


print() 


praunt(e oubputpr odabalaty 
print(prob) 


结果 如 下 所 示 。 


classified: 


[ True 


output probability: 
IE gs 
.43130948e-03 
.69157398e-01 
.93514787e-02 
.12158085e-09 
.71545204e-02 
.30860678e-07 
.25345686e-08 
.43027297e-12 
.95894194e-01 


[ 


i i 
WO cov 已 一 人 一 中 W 


True True 


98682678e-01 


True 


玉 一 0 品 人 OO OW 0 一 


True 


.31731527e-03 
.69049275e-01 
.08425445e-02 
.70684528e-01 
.59103166e-03 
.76335824e-01 
.24577259e-02 
.87839682e-03 
.41838231e-04 
.10580169e-03 


可 以 看 出 分 类 结果 是 正确 的 。 


由 于 输入 数据 是 二 维 的 ， 所 以 可 以 画 出 它 的 分 类 直线 。softmax 函数 值 相等 的 地 方 就 是 
分 界线 ， 比 如 分 类 1 和 分 类 2 的 分 界线 就 是 如 下 式 所 示 的 直线 。 





True 


BD WO WD OO WO OO MS 


TrueqTrue 


.58784910e-10] 
.75194254e-02] 
.09097688e-08] 
.96400509e-03] 
.91409004e-01] 
.50969939e-03] 
.57542002e-01] 
S92 lSS es oil 
.99858141e-01] 
.68717937e-09]] 








True 











由 于 数据 量 较 多 ， 我 们 就 适当 选取 10 个 数据 ， 检 查 它 们 


四 
全 





否 被 正 
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WI1X1 + W1272 十 D1 = W21XI + W2272 十 D2 (3.76) 


用 sess.run(W) 及 sess.run(b) 得 到 的 结果 将 该 式 转化 为 图 ， 得 到 的 图 形 如 图 3.20 所 示 ， 可 
以 看 出 分 类 的 结果 是 正确 的 。 
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图 3.20 数据 与 分 类 直线 


3.5.3.2 ”使 用 Keras 的 实现 
下 面 用 Keras 再 实现 一 遍 前 面 的 例子 。 由 于 到 数据 生成 为 止 代 码 都 是 一 样 的 ， 所 以 我 
们 从 模型 的 定义 开始 编写 下 列 代 码 。 




















model = Sequential() 
model.add(Dense(input_dim=M, units=K)) 
model.add(Activation('softmax')) 


model .compile(loss='categorical_crossentropy', optimizer=SGD(1r=0.1)) 





二 分 类 时 用 的 是 loss='binary_crossentropy' ， 而 在 实现 1-of-K 表示 时 ， 需 要 写 为 'categorical_ 
crossentropy'。 模 型 训练 的 代码 与 上 一 次 相同 ， 只 需 以 下 两 行 代 码 。 
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minibatch_size = 50 


model.fit(X, Y, epochs=20, batch_ size=minibatch_size) 


执行 以 下 代码 并 检查 结 


Xa shuthdle( 
classes = model.predict_ classes(X_[0:10], batch_size=minibatch_size) 
prob = model.predict proba(X_[0:10], batch_size=1) 


print("classified:") 
print(np.argmax(model.predict(X_[0:10]), axis=1) == classes) 
print() 

print(ioutputpr odabality 二 

print(prob) 


可 以 看 到 和 用 TensorFlow 时 一 样 ， 数 据 被 正确 地 分 类 了 。 





多 层 感知 机 


3.6.1 非 线性 分 类 
3.6.1.1 异 或 门 

我 们 已 经 学 习 过 与 门 、 或 门 和 非 门 这 三 种 基本 的 逻辑 门 了 。 除 此 之 外 ,还 有 一 些 比较 特 
殊 的 逻辑 门 ， 异 或 门 (XOR 门 ) (逻辑 异 或 ) 就 是 其 中 之 一 。 它 的 电路 符号 如 图 3.21 所 示 。 








输入 输出 
Xl 

了 
XxX2 


图 3.21 蜡 或 门 的 电路 符号 


另外 ， 异 或 门 的 输入 /输出 如 表 3.7 所 示 。 
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表 3.7 异 或 门 的 输入 /输出 

















Xl X2 了 
0 0 0 
0 1 
0 1 
1 1 0 








之 所 以 说 异 或 门 “特殊 "原因 在 于 它 的 输入 /输出 。 在 平面 上 面 出 x1 -x 的 图 形 后 就 很 好 
理解 了 ， 异 或 门 无 法 像 与 门 和 或 门 那样 用 一 条 直线 对 数据 进行 分 类 。 如 图 3.22 所 示 ， 异 或 
门 至 少 需 要 两 条 直线 才 行 。 




















图 3.22 表示 异 或 门 的 数据 的 分 类 








像 前 面 看 到 的 那 种 可 以 用 一 条 直线 ( 如 果 是 天 个 分 类 就 是 天 - 1 条 直线 ) 对 数据 进行 
分 类 的 情况 叫 作 线性 可 分 ， 像 异 或 门 这 种 不 能 用 一 条 直线 分 类 的 情况 则 叫 作 线性 不 可 分 ”"。 
而 实际 上 ， 简 单 感知 机 和 逻辑 回归 只 能 对 线性 可 分 的 数据 进行 分 类 。 我 们 来 想 一 下 输入 是 
二 维 的 情况 就 比较 容易 理解 了 ， 从 激活 前 的 表达 式 可 以 知道 ， 神 经 元 是 否 激活 的 分 界线 如 
下 所 示 。 























axi1+bx»+c=0 (3.77) 





这 个 公式 不 支持 一 条 直线 以 上 的 情况 ， 不 能 对 异 或 门 进 行 训练 。 下 面 我 们 用 Keras 实现 的 




















Pp9 如 果 数 据 是 n 维 的 ， 那么 问题 就 是 能 否 用 n -1 维 超 平面 进行 分 类 。 
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逻辑 回归 模型 尝试 对 异 或 门 进 行 分 类 。 


import numpy as np 
from keras.models import Sequential 
from keras.layers import Dense, Activation 


from keras.optimizers import SGD 


np.random.seed(0) 


# 异 或 门 
npaalay Lomo Oe ue 
EPESImaay ol EG 交 
model = Sequential([ 

Dense(input_dim=2, output_dim=1), 

Activation('sigmoid') 
11» 
model.compile(loss='binary_crossentropy', optimizer=SGD(1r=0.1)) 
model.fit(X, Y, epochs=200, batch_size=1) 


prob = model.predict proba(X, batch_size=1) 
print(prob) 


执行 结果 如 下 所 示 。 


[[ 0.5042778859] 
[ 0.50167429] 
[ 0.50263327] 
[ 0.50002992]] 


aS 


可 以 看 到 训练 失败 了 。 我 们 把 简单 感知 机 和 逻辑 回归 这 样 只 支持 线性 可 分 问题 的 模型 称 为 


线性 分 类 器 (linear classifier )。 





3.6.1.2 ”逻辑 门 的 组 合 

虽然 基本 门 是 线性 可 分 而 异 或 门 是 线性 不 可 分 的 ， 但 通过 组 合 基本 门 ， 可 以 实现 异 或 
门 。 实 现 方法 有 多 种 ， 图 3.23 就 是 其 中 之 一 。 即 在 一 般 的 与 门 前 ， 搬 入 三 种 逻辑 门 的 组 合 
( 虚线 部 分 )。 
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输入 输出 
Xl 
X2 





























图 3.23 通过 组 合 基 本 门 来 实现 的 异 或 门 








只 需 组 合 基 本 门 即 可 实现 异 或 门 ， 这 对 神经 网 络 的 模型 来 说 是 一 个 重要 的 启发 。 组 合 
基本 门 的 思路 同样 适用 于 神经 元 ， 如 果 对 神经 元 进行 组 合 ， 就 可 以 得 到 能 够 进行 非 线 性 分 
类 的 模型 了 。 为 此 需要 在 目前 为 止 只 考虑 了 输入 和 输出 的 网 络 中 ， 增 加 相当 于 图 3.23 所 
示 的 虚线 部 分 的 神经 元 。 虚 线 部 分 的 输入 和 输出 都 是 两 个 ， 所 以 可 以 把 神经 网 络 的 模型 表 
示 为 图 3.24 那样 。 与 基本 门 的 组 合 一 样 ， 输 入 和 输出 之 间 加 了 两 个 神经 元 ,“ 与 门 + 非 门 ” 
以 及 或 门 分 别 被 替换 成 了 神经 元 ”"。 














输入 -一 -一 - ， 输出 








| 
X2 ——O | 
| 


图 3.24 ”支持 异 或 门 的 神经 网 络 








那么 ， 让 我 们 来 思考 一 下 这 个 神经 网 络 是 否 真 的 再 现 了 异 或 门 。 在 这 里 神经 元 结构 本 
身 也 是 不 变 的 ， 所 以 增加 的 神经 元 可 以 用 下 式 来 表示 。 




















10 输出 和 与 门 输出 相反 的 (线性 可 分 的 ) 逻辑 门 叫 作 与 非 门 (NAND 门 ) 所 以 也 可 以 把 图 3.23 的 虚线 部 分 看 
作 与 非 门 和 或 门 的 并 列 。 把 神经 元 与 逻辑 门 一 一 对 应 起 来 看 或 许 会 更 加 直观 。 
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3.6 ”多 层 感 知 机 
hi 二 f(w11x1 十 W12X2 十 D1) (3.78) 
hy = jw21X1 + W2272 + b2) (3.79) 
y = Jamat+yvjp+c) (3.80) 


ee， 相对 应 ,我 们 采用 阶 路 函数 作为 激活 函数 (.)。 不 过 函数 中 的 正 负 可 以 决定 
， 所 以 使 用 sigmoid 函数 也 没有 问题 。 对 于 上 面 的 表达 式 ， 套 用 以 下 数值 。 


ee W11 Wl. 2 2 
Ws | W21 W222 ) 加 | -=2 > G3.8D 
b 一 1 
和 人 -全 mo 
V1 多 
a om 
c = -3 (3.84) 





可 以 看 出 这 个 神经 网 络 确实 再 现 了 异 或 门 。 

像 这 样 ， 输 入 和 输出 以 外 的 神经 元 也 连接 着 的 模型 被 称 为 多 层 感 知 机 ( multi-layer 
perception )， 常 缩写 为 MLP。 正 如 多 “ 层 ” 感 知 机 其 名 所 示 ， 神 经 网 络 的 模型 也 如 同人 脑 
内 部 层 层 相连 。 因 此 ， 接 收 输入 的 层 被 称 为 输入 层 (input layer )， 进 行 输 出 的 层 被 称 为 输出 
层 ( output layer )， 这 次 增加 的 输入 层 和 输出 层 之 间 的 层 则 被 称 为 隐藏 层 (hidden layer )。 





3.6.2 模型 化 


使 用 拥有 “输入 层 、 隐 藏 层 和 输出 层 ” 结构 的 网 络 ,我 们 就 可 以 进行 线性 不 
可 分 的 数据 的 输入 /输出 了 。 a 对 多 层 感 知 机 
的 模型 进行 汉化 ， 就 可 以 对 更 复杂 的 数据 进行 分 类 了 。 下 面 我 们 去 看 一 看 多 层 模 型 与 前 面 
接触 到 的 模型 有 什么 不 同 。 泛 化 后 的 三 层 神 经 网 络 的 模型 如 图 3.25 所 示 。 























P11 计算 层 数 时 也 有 将 输入 层 排除 在 外 ,把 三 层 的 神经 网 络 当 成 是 二 层 网 络 模型 的 情况 , 但 本 书 为 了 更 加 直观 
和 容易 理解 ， 将 输入 层 也 包含 在 层 数 之 内 。 
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图 3.25 三 层 神 经 网 络 


首先 看 一 下 “输入 层 - 隐藏 层 ” 部 分 ， 这 部 分 与 前 面 用 到 的 二 层 神 经 网 络 形式 相同 ， 
隐藏 层 的 “输出 ”的 表达 式 可 以 用 权重 W、 偏 置 b 和 激活 函数 了 .) 表示。 


h= f/f(Wx+b) (3.85) 


这 里 得 到 的 有 还 会 辐 输 出 层 传播 ， 因 此 “隐藏 层 - 输出 层 ” 部 分 的 表达 式 可 以 用 权重 从 
偏 置 c 和 激活 函数 g(:) 表示 。 


y= 8g8(Vh+ce) (3.86) 


接着 来 考虑 该 用 什么 函数 作为 激活 函数 1 和 g。 首 先 g 表示 整个 网 络 的 输出 ， 所 以 应 该 在 
多 分 类 时 用 softmax 函数 ， 在 二 分 类 时 用 sigmoid 函数 。 而 /是 向 输出 层 传播 值 (信号 ) 的 ， 
&(.) 表达 式 中 的 Vh +c 可 以 用 任何 实数 ， 所 以 输出 hh 的 1 只 要 是 能 做 到 “ 收 到 小 值 就 输出 
小 值 ， 收 到 大 值 就 输出 大 值 ”的 函数 即 可 。 不 过 为 了 计算 方便 ， 一般 都 会 用 sigmoid 等 函 
数 。 其 他 的 激活 函数 将 会 在 第 4 章 中 介绍 。 

当 网 络 变 为 多 层 之 后 ， 该 如 何 去 训 练 网 络 ( 参数 最 优化 ) 呢 ?” 模 型 的 参数 有 W、V、b 
和 c， 因 此 如 果 令 最 小 化 的 误差 函数 为 E， 那么 有 EE = E(W,V,b,c)。 通 过 随机 梯度 下 降 法 
求 最 优 的 参数 时 ， 就 需要 求 各 个 参数 的 梯度 。 和 前 面 一 样 ， 假 设 有 NN 个 数据 ， 用 xn、yn 等 
表示 其 中 第 n 个 数据 (向 量 )。W 个 数据 分 别 产 生 的 误差 En(n = 1,… ,NN) 依旧 是 相互 独立 
的 ， 因 此 可 以 表示 如 下 。 


















































N 
E= > 已 ， (3.87) 


接 下 来 ,我 们 先 考虑 一 下 各 个 参数 对 , 的 梯度 。 为 了 让 表达 式 更 易 读 ， 后 面 会 省 略 表 示 数 





据 顺 序 的 下 标 “,,”。 
如 下 定义 每 层 激活 前 的 值 。 
p := Wx+b (3.88) 
q := Vh+tcec (3.89) 


对 到 = (wiw2…wDT 及 V= (v1V2…yvk)! 求 偏 导 数 。 





OEn OE, Opj am ， 
Ow Opj Ow;j Opj 











(3.90) 
OEn OEn Opj 加 OEn 
db; pj;db; op; 
OE _ OEn Og _ OEn, 
vx 84 Ove Ogx (3.91) 


OEn OEn Ogx OFn 
Ock 6 Oc Ogx 








所 以 只 要 求 得 路 和 3， 就 可 以 求 得 各 参数 的 梯度 。 对 于 式 (3.91), 假设 “隐藏 层 -输出 层 ” 


Ogx 


中 用 的 是 softmax 函数 ， 与 在 多 分 类 导 辑 回归 时 得 到 的 式 (3.72) 和 式 (3.73) 进行 比较 ， 就 能 
得 到 以 下 表达 式 *， 





OFEn 
Ogx 





= —(tk — yx) (3.92) 





如 此 一 来 ， 问 题 就 简化 成 了 求 名 。 继 续 应 用 偏 微分 的 连锁 律 ， 可 以 得 到 以 下 变形 。 








BEn _ Se Ogx 


Opj {Og Opj 
(3.93) 





1 BE 
= Da (Pin) 


这 样 所 有 的 梯度 都 可 以 计算 了 。 

















P12 当然 也 可 以 通过 对 En = -了 Ai logyx 进行 偏 微分 来 求 得 。 





118 | 第 3 章 神经 网 络 





数学 表达 式 的 推演 到 此 结束 ， 不 过 我 们 再 来 考虑 一 下 式 (3.93) 的 含义 。 这 里 先 做 如 下 
定义 。 








OF 

01 := = 一 (3.94) 
Opj 
OEn 

Bk = (3.95) 
Ogx 





对 照 式 (3.92) 可 以 看 出 ，6x 表示 的 正 是 模型 的 输出 和 正确 值 之 间 的 误差 ， 所 以 我 们 把 ok 和 
6; 都 称 为 误差 ( error )。 定 义 好 误差 项 之 后 ， 式 (3.93) 可 以 转换 如 下 。 


天 
0j = f "(pj) viok (3.90) 
天 三 下 





2A vj6x 的 部 分 和 神经 元 输出 的 表达 式 形式 相同 ， 我 们 已 经 见 过 无 数 次 了 。 也 就 是 说 ， 在 
考虑 模型 的 输出 时 要 从 输入 层 到 输出 层 正 向 地 观察 网 络 ， 而 在 考虑 梯度 时 则 要 逆 癌 地 观察 
网 络 。 这 样 一 来 ， 就 能 发 现 54 就 像 图 3.26 所 示 的 那样 在 网 络 中 传播 。 这 种 在 多 层 网 络 中 ， 
通过 研究 误差 的 逆 回 输出 来 计算 梯度 的 做 法 称 为 反 向 传播 算法 ( backpropagation )。 可 以 毫 
不 夸张 地 说 ， 反 向 传播 算法 是 所 有 深度 学 习 的 模型 都 需要 用 到 的 算法 。 不 过 ， 虽然 它 名 为 
算法 ,但 我 们 只 要 把 握 住 “需要 求 的 是 可 以 使 误差 饵 数 最 小 化 的 梯度 ”这 个 大 前 提 ， 就 不 
会 有 什么 问题 。 





























隐藏 层 输出 层 





图 3.26 ”误差 的 逆 传 播 


这 里 为 了 让 大 家 更 好 地 观察 反 向 传播 算法 ， 先 将 各 层 的 权重 矩阵 分 解 为 向 量 后 再 去 计 
算 梯度 。 不 过 ,和 抢 阵 当然 也 可 以 不 分 解 ， 不 分 解 时 的 表达 式 如 下 所 示 。 











i 


. ° 3.97 
Wap law) ap™ Ce 





8E，_ OE (a ) _ OEn jt 


























aV ~ bg \aV| ™ ag O09 
然后 进行 以 下 定义 。 
en := oF (3.99) 
op 
oF, 
es, := (3.100) 
0g 
上 面 定 义 的 en 和 eo 分 别 是 元 素 为 6、6x 的 向 量 ， 因 此 可 以 求 得 以 下 表达 式 。 
en = f'(p)O Veo (3.101) 
eo = -(t—y) (3.102) 


3.6.3 实现 
下 面 我 们 用 代码 来 检验 一 下 多 层 网 络 是 否 能 够 训练 异 或 门 。 首 先 准 备 异 或 门 的 数据 。 





XnpRsamay oe ol oc oy 
Venpsarr oy 














虽然 网 络 变 为 多 层 的 了 ,但 基本 上 注意 区 分 好 每 一 层 就 可 以 了 ， 实 现 起 来 并 不 难 。 尤 其 是 
在 确定 模型 时 非常 麻烦 的 反 向 传播 算法 的 部 分 ，TensorFlow 和 Keras 等 库 会 帮 有 我 们 封装 好 ， 
所 以 并 没有 什么 需要 特别 注意 的 地 方 。 不 过 ,为 了 深入 理解 模型 ,我 们 需要 掌握 表达 式 的 
各 个 部 分 分 别 对 应 代码 中 的 哪些 部 分 ， 因 此 大 家 在 观察 代码 实现 时 要 留心 这 一 点 。 











3.6.3.1 使 用 TensorFlow 的 实现 
异 或 门 的 输入 层 是 二 维 的 ， 输 出 层 是 一 维 的 ， 下 面 分 别 定 义 相 应 的 placeholder。 








x = tf.placeholder(tf.float32, shape=[None, 2]) 
t = tf.placeholder(tf.float32, shape=[None, 1]) 
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多 层 的 情况 下 ， 需 要 在 代码 中 定义 每 一 层 的 输出 表达 式 。 通 过 逻辑 门 的 组 合 ， 我 们 得 到 了 
隐藏 层 维度 为 二 的 异 或 门 ， 所 以 在 代码 中 我 们 也 用 相同 维度 试 一 试 。 以 下 为 “输入 层 - 隐 
藏 层 ” 表 达 式 的 代码 。 














W = tf.Variable(tf.truncated normal([2, 21)) 
b = tf.Variable(tf.zeros([2])) 
h = tf.nn.sigmoid(tf.matmul(x, W) + b) 








这 里 的 tf.truncated_normal() 是 生成 遵循 截断 正 态 分 布 (truncated normal distribution ) 数 
据 的 方法 。 如 果 用 tf.zeros()， 它 会 把 所 有 参数 都 初始 化 为 0， 从 而 导致 反 向 传播 算法 可 
能 无 法 正确 地 反馈 误差 。 用 同样 思路 来 编写 “隐藏 层 - 输出 层 ” 表 达 式 的 代码 ， 如 下 所 示 。 





V = tf.Variable(tf.truncated normal([2, 1])) 
c= tf.Variable(tf.zeros([1])) 
y = tf.nn.sigmoid(tf.matmul(h, V) + c) 





以 上 就 是 模型 的 输出 。 
接 下 来 是 设置 训练 时 的 误差 轴 数 。 由 于 这 次 是 二 分 类 ， 所 以 使 用 如 下 所 示 的 交叉 精 误 
函数 。 








紫 


Crossaentropy = tf.reduce sum(t * tf.Llog(y) ACE ty) tf.log(t = y)) 





至 于 随机 梯度 下 降 法 的 实现 ， 则 与 以 前 的 实现 相同 。 


train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy) 
correctiprediction tf equal(tt tonfloat(tt ereater(Cy 005) tt) 





这 就 是 使 用 库 开发 的 好 人 处。 实际 的 训练 部 分 也 与 前 面 的 实现 相同 。 





init = tf.eglobal variables initializer() 
sess = tf.Session() 


sess.run(init) 


for epoch in range(4000): 


sess.run(train_step，feed_dict={ 
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河 
if epoch % 1000 == 0: 
print( epoch epoch) 


由 于 授 代 次 数 很 多 ， 所 以 在 执行 过 程 中 输出 进度 情况 。 
这 样 就 可 以 进行 训练 了 。 让 我 们 检验 一 下 结 








classified = correct prediction.eval(session=sess, feed dict={ 
XA 
i 

J 

prob = y.eval(session=sess, feed dict={ 
Xe 

}) 


print( "classitied:) 
print(classified) 

加 本 mn 起 全 

praunt( outputlpr ooabnl ty ) 
print(prob) 


得 到 的 结果 如 下 所 示 。 


classified: 
四 euedl 
[ True] 
Wvedl 
[LIU 


output probability: 
[[ 0.00766729] 

[ Oona 

[ 0.99138099] 

[ 0.01342883]] 


可 以 看 到 这 个 模型 确实 能 够 训练 异 或 门 。 
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3.6.3.2 ”使 用 Keras 的 实现 
在 Keras 中 可 以 用 model.add() 快速 地 增加 层 ， 所 以 用 下 面 的 代码 就 能 够 构建 出 三 层 神 
经 网 络 。 


model = Sequential() 


# 输入 





层 - 隐藏 


a 


2 





model.add(Dense(input_dim=2, units=2)) 


model.add(Activation('sigmoid')) 


# 隐藏 层 - 输出 层 
model.add(Dense(units=1)) 
model.add(Activation('sigmoid')) 


model.compile(loss='binary_crossentropy', optimizer=SGD(1r=0.1)) 











实际 的 训练 过 程 也 与 前 面相 同 ， 只 需 调 用 下 面 的 代码 即 可 。 


model.fit(X，Y，epochs=4000，batch_size=4) 




















通过 以 下 代码 检验 结果 ， 同 样 可 以 得 出 训练 已 经 正确 完成 的 结论 。 





classes = model.predict_classes(X，batch_size=4) 


prob = model.predict_proba(X，batch_size=4) 


punt( classafed 


print(Y == classes) 


print 


print('output probability:') 


print(prob) 





此 外 ， 目前 为 止 添加 Dense() 时 用 的 都 是 Dense(input_dims=2，units=2) 这 样 的 写法 ， 
其 中 units= 的 部 分 可 以 像 下 面 这 样 予以 省 略 。 





et 








Dense(2, input_dim=2) 














同样 地 ， 上 面 “ 隐 藏 层 - 输出 层 ” 部 分 写 的 是 pense(units=1)， 这 也 可 以 像 下 面 这 样 简化 。 
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Dense(1) 





后 面 编写 代码 时 就 像 现 在 这 样 ， 不 再 写 units= 的 部 分 了 *D。 


模型 的 评估 


3.7.1 从 分 类 到 预测 


到 此 为 止 ,我 们 已 经 尝试 过 使 用 逻辑 回归 或 多 层 感 知 机 等 算法 ， 对 简单 的 一 组 数据 进 
行 适当 的 分 类 了 。 但 是 ， 前 面 在 训练 网 络 时 用 到 的 都 是 能 够 被 正确 分 类 的 “干净 的 ”数据 ， 
所 以 大 家 可 能 难以 体会 到 现在 所 做 的 数据 分 类 有 什么 实际 的 意义 或 价值 。 然 而 ,现实 社会 
中 的 数据 要 比 那些 数据 复杂 得 多 ， 几 乎 都 混杂 着 异常 值 和 噪声 。 因 此 ,， 面 对 复杂 的 数据 ， 
“机 需要 如 何 对 它们 进行 分 类 ”是 非常 重要 的 。 

我 们 来 看 一 个 例子 ， 如 图 3.27 所 示 的 有 两 个 类 别 的 一 组 数据 。 虽 然 数 据 看 上 去 可 以 分 
为 两 块 ,但 是 由 于 有 重合 ， 几 乎 做 不 到 100% 正确 分 类 。 实 际 的 数据 基本 上 都 是 这 样 “ 不 
干净 ”的 数据 ， 所 以 很 难 避 免 部 分 数据 被 错误 地 分 类 。 因 此 ， 我 们 需要 考虑 的 是 如 何 对 获 
取 的 数据 进行 最 “好 ”的 分 类 。 
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图 3.27 有 重 共 的 数据 的 示例 





P13 从 Keras 的 Dense 类 源 代码 (https://github.com/keras/fchollet/keras/blob/master/keras/layers/core.py ) 中 的 def 
init (self, units，... ，**kwargs) 也 可 以 看 出 ，units= 默认 就 是 不 需要 写 的 。 
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那么 ,根据 什么 去 判断 分 类 的 “好 坏 ” 呢 ?分 类 的 方法 有 很 多 种 ， 比 如 图 3.28 所 示 的 
这 个 例子 ,我 们 直观 上 会 认为 左 图 比 右 图 分 类 得 更 “好 ”， 但 实际 上 对 数据 做 到 较 好 分 类 的 
却 是 右 图 。 


























5 5 
et 
a 2 
0 记 x x 0 ea x 
s x o% 
CO i re eo Te 
ee i 
eS 2 et es 
的 站 ba 
二 ® 
5 5 天 
和 -5 - 0 5 -5 0 FE 


图 3.28 数据 分 类 的 示例 


理想 的 情况 是 找到 数据 所 具有 的 真正 的 规律 。 我 们 之 所 以 会 认为 左 图 的 分 类 更 好 ， 是 
因为 我 们 觉得 左 图 似乎 抓 住 了 数据 本 身 的 特点 。“ 分 类 更 好 ”的 评估 标准 是 : 对 给 定数 据 进 
行 分 类 之 后 ， 青 次 得 到 同样 的 数据 时 ， 正 确 分 类 的 概率 能 够 提高 "。 这 就 意味 着 神经 网 络 中 
的 学 习 不 (只 ) 是 对 数据 进行 分 类 ， 更 要 对 数据 所 具有 的 真正 的 规律 进行 预测 。 









































3.7.2 ”预测 的 评估 


判断 模型 能 否 正确 地 预测 数据 ， 要 看 模型 能 否 对 给 定数 据 之 外 的 未 知 数据 进行 正确 的 
分 类 。 这 就 是 说 ， 在 评估 模型 的 预测 效果 时 ， 必 须要 准备 两 套数 据 。 我 们 前 面 所 看 到 的 那 
些 在 模型 训练 过 程 中 使 用 的 数据 称 为 训练 数据 ( training data )， 用 于 评估 预测 效果 的 未 知 数 
据 则 称 为 测试 数据 (test data )。 不过， 真正 的 未 知 数据 很 难 获取 ， 所 以 实际 的 做 法 通常 是 
把 获取 的 全 部 数据 ( 随机 地 ) 分 为 训练 数据 和 测试 数据 ， 然 后 用 模拟 的 未 知 数据 来 评估 模 
型 M4。 这 个 流程 如 下 所 示 。 















































P14 有 时 也 将 这 里 的 测试 数据 称 为 验证 数据 ( validation data )， 把 真正 的 未 知 数据 称 为 测试 数据 。 这 种 情况 下 
要 使 用 三 套 测试 数据 进行 评估 。 尤 其 在 训练 数据 较 多 的 情况 下 ， 同 时 使 用 验证 数据 进行 检验 是 非常 普遍 的 
情况 。 
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把 所 有 数据 分 为 训练 数据 和 测试 数据 


| 


使 用 训练 数据 进行 训练 


| 


使 用 测试 数据 对 分 类 进行 评估 





由 于 无 法 做 到 100% 正确 分 类 ， 所 以 需要 用 于 评估 的 指标 。 常 用 的 代表 指标 有 准确 
率 (accuracy )、 精 确 率 ( precision ) 和 召回 率 ( recall )。 下 面 ， 我 们 通过 一 个 二 分 类 的 例 
子 来 看 一 看 这 些 指标 都 是 什么 意思 吧 。 令 二 分 类 模型 的 预测 值 为 y= 1 (神经 元 激活 ) 或 
y = 0 (神经 元 不 激活 )， 而 实际 值 1 的 取 值 为 1= 1 或 1=0， 所 以 (1, y) 的 组 合 就 代表 了 预测 
是 否 正确 。 比 如 ， 对 某 组 测试 数据 进行 预测 的 结果 如 表 3.8 所 示 。 这 种 组 合 称 为 混淆 矩阵 


(confusion matrix )。 
































表 3.8 混淆 矩阵 





会 y=0 














每 种 组 合 都 有 各 自 的 名 称 : (1t,y) = (1, 1) 的 组 合 叫 作 真 阳性 (true positive ); (1,y) = (0,1) 叫 
作假 阳性 ( false positive ); (zt, y) = (1,0) 叫 作假 阴性 (false negative ); (t, y) = (0,0) 叫 作 真 阴 
性 (true negative )。 这 时 ， 上 面 提 到 的 三 个 指标 的 计算 式 如 表 3.9 所 示 。 


表 3.9 模型 的 评估 指标 

















名 称 这 
准确 率 i 
精确 率 讲 : 证 
召回 率 地 














可 以 看 出 ,准确 率 表示 的 是 所 有 数据 中 ， 正 确 地 预测 到 神经 元 是 否 激 活 的 数据 所 占 的 比例 ; 
精确 率 表示 的 是 预测 为 激活 的 神经 元 数据 中 ， 真 正 激活 的 数据 所 占 的 比例 ; 召回 率 表 示 的 
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则 是 所 有 应 激活 的 数据 中 ， 被 预测 为 激活 的 数据 所 占 的 比例 。 

这 三 个 指标 都 是 用 来 评估 模型 分 类 和 预测 效果 好 坏 的 指标 。 如 果 和 需要 进行 严格 的 评估 ， 
那么 三 个 指标 都 需要 计算 。 不 过 一 般 情 况 下 只 用 准确 率 来 评估 模型 就 好 。 仅 提 及 “预测 精 
度 是 多 少 ” 时 ， 指 的 就 是 准确 率 。 





























3.7.3 简单 的 实验 

下 面 我 们 就 通过 简单 的 实验 来 评估 预测 的 效果 吧 。 使 用 sklearn 库 可 以 很 方便 地 生成 
实验 用 的 数据 。 比 如 执行 以 下 代码 ， 就 会 为 如 图 3.29 所 示 的 “ 弯 月 形 ” 二 分 类 数据 生成 
300 个 数据 ， 每 个 类 别 分 别 有 150 个 。 

















from sklearn import datasets 


N = 300 


XxX, y = datasets.make moons(N, noise=0.3) 


令 noise=0.3， 故 意 让 部 分 数据 重合 ， 做 出 “不 干净 ”的 数据 。 不 过 从 图 中 可 以 看 出 ， 整 体 
来 说 数据 还 是 有 规律 的 ， 应 该 能 用 多 层 感 知 机 进行 分 类 和 预测 。 像 这 样 有 实验 性 质 的 问题 
叫 作 玩具 问题 ( toy problem )。 
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图 3.29 玩具 问题 的 数据 


下 面 使 用 这 套数 据 集 来 评估 多 层 感知 机 的 预测 精度 。 首 先 要 把 全 部 数据 分 为 训练 数据 
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和 测试 数据 ， 通 过 sklearn.model_selection.train_test_split() 就 可 以 简单 实现 ”15。 


from sklearn.model_ selection import train_ test_ split 


Y = y.reshape(N, 1) 
“balun Ytestoe talne atese Ny 
traninitest splidO YY dramisilze=0 8 


其 中 的 y.reshape() 会 按照 TensorFlow 的 习惯 ， 根据 正确 结果 数据 的 维度 对 数据 进行 调整 ， 


然后 按照 8:2 的 比例 把 数据 分 割 为 训练 数据 和 测试 数据 。 
模型 的 生成 与 之 前 的 实现 相同 。 首 先 实验 一 下 隐藏 层 为 二 维 的 情况 。 





num_hidden = 2 


x = tf.placeholder(tf.float32, shape=[None, 2]) 














t = tf.placeholder(tf.float32, shape=[None, 1]) 

# 输入 层 - 隐藏 层 

W = tf.Variable(tf.truncated normal([2, num_hidden])) 

b = tf.Variable(tf.zeros([num hidden])) 

h = tf.nn.sigmoid(tf.matmul(x, W) + b) 

# 隐藏 层 -输出 层 

V = tf.Variable(tf.truncated normal([num hidden, 1])) 

c = tf.Variable(tf.zeros([1])) 

y = tf.nn.sigmoid(tf.matmul(h, V) + c) 

cross>entropy = — tf.reduce sum(t * tf.log(y) CE t) * tf.log(1 = y)) 


train_step = tf.train.GradientDescentOptimizer(0.05).minimize(cross_entropy) 
correct prediction = tf.equal(tf.to float(tf.ereater(y, 0.5)), t) 





另外 ,为 了 评估 预测 精度 ， 如 下 定义 accuracy。 


accuracy = tfareduceimeanCtfucast(correctipredictionaitfefloat32) 

















P15 如 果 sklearn 的 版 本 是 0.17 以 下 ， 就 不 用 sklearn.model_selection 了 ， 而 是 用 sklearn.cross_validation。 

















如 果 以 下 代码 

print(sklearn.__version_) 

的 执行 结果 是 9.17.X， 那 么 请 通过 执行 以 下 命令 将 版 本 升级 到 9.18 以 上 。 
$ pip install scikit-learn -U 
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correct_prediction 会 返回 通过 feed_dict 输入 的 数据 的 结果 ， 所 以 用 tf.reduce_mean() 求 
平均 值 ， 即 可 得 到 “预测 正确 的 数据 数 /全 部 数据 数 "。 不 过 correct_prediction 返回 的 数 
据 是 布尔 类 型 ， 需 要 用 tf.cast() 将 其 转 为 浮 点 数 类 型 之 后 ， 再 参与 数值 计算 。 

训练 模型 的 代码 也 与 之 前 的 实现 相同 。 

















batch_size = 20 
n_batches = N // batch_size 


init = tf.global variables initializer() 
sess = tf.Session() 


sess.run(init) 


for epoch in range(500): 
xX ，Y_ = shuffle(X train, Y_train) 


foriimranse(n batches). 
start = i * batch_ size 


end = start + batch_ size 


sess.run(train step, feed dict=1{ 
Xaistar tama 
t: Y_[start:end] 

jr 





I 





这 里 需要 注意 的 是 ， 训 练 时 只 能 用 训练 数据 ， 不 要 使 用 测试 数据 。 因 为 测试 数据 必须 是 
“未 知 的 数据 ”， 如 果 在 训练 时 使 用 了 测试 数据 ， 那 么 测试 的 意义 也 就 不 存在 了 。 
训练 结束 后 ， 用 测试 数据 来 评估 预测 精度 。 











accuracy_rate = accuracy.eval(session=sess, feed dict={ 


XX test 
ekest 
dr 
print('accuracy: ,accuracy rate) 





运行 结果 如 下 所 示 。 


accuracy oslo6n 
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结果 表明 该 模型 的 预测 精度 是 91.6667%。 为 了 提高 预测 精度 ， 需 要 对 隐藏 层 的 维度 、 学 习 
率 和 和 迭 代数 等 加 以 调整 。 修 改 为 num_hidden = 3 后 再 进行 实验 ， 这 次 得 到 以 下 结 


accuraey 09 


这 说 明 隐 藏 层 为 三 维 的 模型 效果 更 好 。 两 次 测试 结果 的 分 界线 如 图 3.30 所 示 ， 可 以 看 到 确 




















实 是 隐藏 层 维度 为 三 的 模型 较 好 地 发 现 了 “ 弯 月 型 ”这 个 特征 。 
2.0 2 区 到 | 
1.5 
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0.5 MM Ge ; 

eA . x g a ea » 
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| - 和 Ds > 了 * 
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图 3.30 ”隐藏 层 为 二 维 ( 左 ) 和 三 维 ( 右 ) 时 的 分 类 结果 











用 Keras 实现 时 的 代码 并 没什么 大 大 变化 。 首 先 准 备 训练 数据 和 测试 数据 。 


= 300 


N 
X, y = datasets.make_ moons(N, noise=0.3) 


Xtraine Xtest ytraimn ly test— train test split(XK yy, traimBsize=0.8) 
然后 生成 模型 。 


model = Sequential() 
model.add(Dense(3, input_dim=2)) 
model.add(Activation('sigmoid')) 
model.add(Dense(1)) 
model.add(Activation('sigmoid')) 


model.compile(loss='binary_crossentropy', 
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optimizer=SGD(Lr=0.05)， 


metrics=['accuracy ']) 






































与 之 前 不 一 样 的 是 最 后 metrics=['accuracy'] 的 部 分 。 只 需 通过 这 部 分 代码 ，Keras 就 会 帮 

















我 们 算出 accuracy。 接着, 通过 下 述 代 码 开始 训练 。 


model.fit(X_train, y_train, epochs=5060, batch_size=20) 


最 后 确认 结果 。 


loss_and_ metrics = model.evaluate(X_ test, y_test) 


print(loss_and_ metrics) 





运行 结果 如 下 所 示 。 


[0.25150140027205148，0.88333332141240439] 




















结果 的 第 一 个 元 素 是 误差 函数 的 值 ， 第 二 个 元 素 是 预测 精度 的 值 。 这 次 得 到 的 结 
约 为 88%**， 但 需要 注意 的 是 ， 这 只 是 通过 本 次 实验 的 参数 组 合 和 初始 值得 到 的 结果 ， 并 























不 能 说 明 TensorFlow 比 Keras 更 优秀 。 





























是 精度 


P16 Keras 是 对 TensorFlow 进行 了 封装 的 库 ，Keras 和 TensorFlow 有 的 版 本 的 组 合 存在 ng.random.seed() 等 函 
数 的 随机 数 seed 不 符合 预期 的 情况 。 这 个 问题 在 Keras 的 项 目 主页 上 也 有 讨论 ( https://github.com/fchollet/ 








keras/issues/2280 )。 所 以 对 于 这 次 实验 以 及 以 后 实验 的 预测 精度 ， 写 在 本 书 上 的 结 朋 














操作 后 的 结果 可 能 不 尽 相同 ,但 这 对 本 书 的 主题 内 容 没 有 影响 。 





和 读者 在 自 








己 的 环境 下 
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| | 小 结 


本 章 作 为 学 习 深 度 学 习 之 前 的 准备 音节 ， 从 基础 知识 开始 深入 学 习 了 神经 网 络 的 
算法 。 本 章 依 次 介绍 了 简单 感知 机 、 逻 辑 回归 和 多 层 感 知 机 的 知识 。 相 信 学 完 本 章 
后 ， 大 家 应 该 已 经 理解 了 人 脑 的 结构 是 如 何 转换 成 数学 表达 式 的 ， 还 有 应 该 如 何 用 代 
码 去 实现 它们 。 

无 论 模型 简单 还 是 复杂 ， 模 型 训练 的 基本 流程 都 可 以 归结 为 以 下 4 步 。 




















1 用 表达 式 表示 模型 的 输出 

.定义 误差 函数 

. 为 了 让 误差 函数 最 小 化 ， 求 各 个 参数 的 梯度 
4. 通过 随机 梯度 下 降 法 探索 最 优 的 参数 


2 

















从 下 一 前 开始 ， 我 们 将 要 进入 到 学 习 深 度 学 习 理论 的 阶段 ,不 过 相信 只 要 大 家 掌握 了 
这 个 基本 流程 ,今后 无 论 遇 到 什么 模型 ， 都 可 以 从 容 应 对 。 











大 人 Ev 
第 4 章 
深度 神经 网 络 





从 本 章 开 始 ， 我 们 将 学 习 深 度 学 习 的 理论 和 实现 。 虽 然 叫 作 深 度 学 习 ， 但 它 基本 上 就 
是 前 面 接触 过 的 神经 网 络 模型 的 扩展 形态 ， 只 要 掌握 好 基本 理论 ， 理 解 起 来 就 不 会 有 太 大 
的 问题 。 让 我 们 一 起 来 了 解 从 神经 网 络 变 为 “深度 ”神经 网 络 的 过 程 中 出 现 的 问题 ， 以 及 
解决 这 些 问 题 要 用 到 的 技术 。 














图 进入 深度 学 习 之 前 的 准备 

只 有 输入 层 和 输出 层 的 神经 网 络 模型 只 能 进行 线性 分 类 ， 连 异 或 门 那样 简单 的 情况 都 
无 法 训练 。 但 是 ， 正 如 在 逻辑 门 中 对 与 门 、 或 门 、 非 门 进行 组 合 即 可 得 到 异 或 门 的 做 法 一 
样 ， 在 神经 网 络 的 领域 中 也 可 以 通过 增加 隐藏 层 的 方式 来 文 持 非 线性 分 类 。 神 经 网 络 会 根 
据 各 神经 元 激活 与 否 的 不 同 组 合 ， 对 输入 数据 进行 分 类 ， 所 以 与 逻辑 电路 一 样 ， 用 增加 神 
经 元 的 数量 并 对 神经 元 进行 组 合 的 方法 ， 就 可 以 识别 和 分 类 更 复杂 的 模型 。 为 此 可 以 考虑 
以 下 两 种 做 法 。 





















































@ 增加 隐藏 层 中 的 神经 元 个 数 
@ 增加 隐藏 层 的 个 数 











尤其 是 第 二 种 做 法 可 以 使 神经 网 络 的 层 更 深 。 这 种 拥有 深层 的 网 络 被 称 为 深度 神经 网 络 
( deep neural network )， 而 对 深度 神经 网 络 进 行 训 练 的 方法 就 称 为 深度 学 习 (deep learning )， 
或 者 深层 学 习 。 
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下 面 我 们 来 做 一 个 简单 的 实验 。 之 前 在 实验 中 用 的 都 是 玩具 问题 的 数据 ， 这 里 我 们 将 
使 用 叫 作 MNIST*!' 的 真实 数据 。MNIST 是 基准 测试 的 数据 集 ， 常 用 来 比较 神经 网 络 的 预 
精度 。 它 由 70 000 张 手写 数字 0 到 9 的 图 片 (其 中 60 000 张 用 于 训练 ，10 000 张 用 于 测 
试 ) 构成 。 图 4.1 是 其 中 的 部 分 图 片 。 每 张 图 片 的 大 小 都 是 28 像素 x 28 像素 。 











党 


























从 | 1 1 1 材 冯 


un 
© 
un 

2 
S 

> 
mh 
un 





全 闻 1 1 0 .3.3 


un 
© 
un 
已 
[= 

2 
mh 
un 





19 i 1 1 0 1 0 3 的 了 站 


un 
© 
un 
[7 
2 
D 
mh 
un 








10 15 20 25 0 SS 10 15 2 25 站 二 二 入 洛 


图 4.1 MNIST 数据 的 示例 
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使 用 sklearn 即 可 读 取 MNIST 数据 *?。 


from sklearn import datasets 


— 


mnist = datasets.fetch mldata('MNIST original', data_home='. 


Pl http://yann.lecun.com/exdb/mnist 


























zh 





PP2 也 可 以 在 使 用 TensorFlow 时 用 from tensorflow.examples.tutorials.mnist import input_data， 在 使 用 
Keras 时 用 from keras.datasets import mnist 的 方法 读 取 MNIST 的 数据 ; 只 是 ,使 用 sklearn 就 可 以 在 
这 两 个 库 ( 以 及 其 他 的 库 或 者 自行 实现 的 代码 ) 上 用 同样 的 代码 读 取 MNIST 数据 。 
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通过 以 上 两 行 代码 即 可 将 MNIST 的 压缩 文件 下 载 到 data_home 指定 的 目录 下 (在 这 里 是 执 
行 脚本 的 目录 ) 妇 。 以 后 只 要 读 取 本 地 的 数据 即 可 快速 进行 处 理 。 数 据 被 分 为 mnist.data 和 
mnist,target， 前 者 是 将 图 片 转 灰 度 后 的 图 像 数据 ， 后 者 是 实际 与 图 片 相 对 应 的 从 0 到 9 
的 数字 数据 4。 

虽然 可 以 用 MNIST 的 全 部 70 000 个 数据 进行 实验 ,但 是 为 了 简单 起 见 ， 这 里 就 选用 
训练 数据 和 测试 数据 合计 10 000 个 数据 进行 实验 。 随 机 选取 10 000 张 图 片 的 代码 如 下 。 




















n = len(mnist.data) 
N = 10000 # 选取 部 分 MNIST 数据 进行 实验 
indices = np.random.permutation(range(n))[:N] # 随机 选择 N 个 数据 


X = mnist.data[indices] 





y = mnist.target[indices] 


Y = np.eye(10)[y.astype(int)] # 转换 为 1-of-K 形 式 


tanme test /tanteste tanmitestsolnt eX tanEslze= 0 


首先 尝试 用 一 般 的 多 层 感知 机 模型 进行 预测 。 令 输入 层 的 维度 为 7834， 相 应 隐藏 层 的 
维度 为 200。 实 现 方法 与 之 前 的 相同 ,使 用 Keras 实现 的 代码 如 下 所 示 。 





模型 的 设置 


n_in = len(X[0]) # 784 
n_hidden = 200 
n_out = len(Y[0]) # 10 


model = Sequential() 
model.add(Dense(n_hidden, input_dim=n_in)) 


model.add(Activation('sigmoid')) 


























3 fetch_mldata 可 以 从 http://mldata.org 网 站 上 下 载 数 据 ， 但 是 如 果 由 于 某 种 原因 这 个 网 站 不 能 提供 服务 ， 它 
就 获取 不 到 数据 了 。 这 时 可 以 使 用 本 书 随 书 下 载 代 码 包 中 的 mldata， 这 个 文件 夹 中 保存 了 同样 的 数据 。 然 后 

和 $ mkdir ./mldata 创建 mldata 目录 ,将 下 载 的 文件 放 在 此 目录 下 ,程序 就 可 以 运行 了 。 

PP4 mnist.data 实际 上 是 长 度 为 28 x 28=784 的 一 维 数组 ， 可 以 用 print(mnist.data[0]) 等 确认 这 一 点 。 如 果 

想 把 它 转 为 28 x 28 的 数组 ， 需 要 用 到 mnist.data[0].reshape(28，28) 等 代码 。 不 过 目前 为 止 我 们 接触 到 

的 神经 网 络 的 模型 ， 其 输入 层 的 数据 形式 都 是 一 维 数组 ， 所 以 无 须 对 mnist .data 进行 转化 。 
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model.add(Dense(n_out)) 
model.add(Activation('softmax')) 


model.compile(loss='categorical_crossentropy', 
optimizer=SGD(Lr=0.01)， 
metrics=['accuracy ']) 

模型 的 训练 


epochs = 1000 
batch_size = 100 


model.fit(X_train, Y_train, epochs=epochs, batch_size=batch_size) 


评估 预测 精度 


loss_and metrics = model.evaluate(X test, Y_test) 


print(lLoss®andmetrics) 


运行 这 段 代 码 ， 可 以 得 到 预测 精度 (准确 率 ) 为 87.30% 的 结果 。 这 个 结果 比较 一 般 ， 我 们 
还 可 以 让 它 的 预测 精度 更 高 。 下 面 来 看 一 看 增加 隐藏 层 的 神经 元 个 数 后 的 效果 。 神 经 元 个 
数 为 400、2000、4000 时 的 结果 如 表 4.1 所 示 。 


表 4.1 修改 隐藏 层 神经 元 个 数 之 后 
神经 元 个 数 准确 率 ( % ) 














200 87.30 
400 88.80 
2000 90.70 
4000 85.95 





从 表 中 可 以 看 出 ， 增 加 神经 元 个 数 可 以 提升 预测 精度 ,但 并 不 是 越 多 就 越 好 。 而 且 ， 在 
这 里 我 们 还 必须 注意 计算 的 执行 时 间 。 令 各 层 的 神经 元 个 数 分 别 为 ni:、nn、no， 各 个 神经 元 
之 间 的 连接 数 为 (i: nn) + (nn no)， 那么 在 能 实现 的 预测 精度 相同 的 情况 下 ，n 越 小 越 好 。 

这 说 明 增 加 神经 元 个 数 的 做 法 是 有 局 限 性 的 。 那 么 增加 隐藏 层 个 数 的 做 法 怎么 样 呢 ? 
让 所 有 隐藏 层 中 的 神经 元 个 数 均 为 200 个 ,然后 只 增加 以 下 2 行 代 码 。 
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model.add(Dense(n_hidden)) 
model.add(Activation('sigmoid')) 


这 样 模型 整体 的 代码 如 下 所 示 (有 3 个 隐藏 层 的 情况 )。 





model = Sequential() 
model.add(Dense(n_hidden, input_dim=n_in)) 


model.add(Activation('sigmoid')) 


model.add(Dense(n_hidden)) 
model.add(Activation('sigmoid')) 





model.add(Dense(n_hidden)) 
model.add(Activation('sigmoid')) 


model.add(Dense(n_out)) 
model.add(Activation('softmax' )) 


隐藏 层 数 分 别 为 1、2、3、4 时 的 预测 结果 如 表 4.2 所 示 。 层 越 多 ， 能 够 表示 的 模型 应 该 越 
复杂 ， 可 实际 情况 是 预测 精度 不 但 没有 提高 ， 反 而 还 降低 了 。 尤 其 是 隐藏 层 数 为 4 时 的 结 
果 ， 几乎 没有 完成 训练 。 








表 4.2 修改 隐藏 层 个 数 之 后 
隐藏 层 个 数 准确 率 ( % ) 














下 87.30 
2 87.30 
3 82.20 
4 36.20 








即使 深度 学 习 的 方法 本 身 非常 简单 ， 但 在 实际 的 模型 训练 过 程 中 ， 只 是 简单 地 增加 隐 
藏 层 的 个 数 也 不 能 达到 预期 的 效果 。 模 型 的 层 数 越 深 ese 
是 越 多 的 。 我 们 需要 找到 导致 训练 没 能 顺利 进行 的 原因 ， 进 而 思考 如 何 去 解 决 这 个 问题 。 
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区 训练 过 程 中 的 问题 


4.2.1 梯度 消失 问题 


我 们 已 经 知道 ， 只 是 简单 地 增加 隐藏 层 的 个 数 不 会 使 神经 网 络 模型 的 训练 效果 更 好 。 
其 中 一 个 原因 就 是 梯度 消失 问题 ( vanishing gradient problem )。 在 训练 模型 时 为 了 寻求 最 优 
解 ， 需 要 计算 各 参数 的 梯度 ， 而 梯度 消失 问题 正如 其 字面 意思 一 样 ， 是 梯度 会 消失 ( 等 于 
0 ) 的 问题 。 如 果 梯 度 消 失 ， 反 向 传播 算法 就 不 能 像 设 想 的 那样 工作 了 。 从 表 4.2 的 结果 也 
可 以 看 出 ， 层 数 越 多 ， 梯 度 消 失 问题 就 越 严 重 ， 其 中 的 缘由 值得 我 们 思考 。 
作为 简单 的 例子 ， 我 们 来 看 一 ee 网 络 。 为 了 简单 起 
见 ， 图 中 没有 画 出 所 有 神经 元 之 间 的 连接 ， 但 与 之 前 的 一 样 ， 各 层 之 间 的 神经 元 是 全 连接 
令 输 入 层 的 值 为 x， ee ho)， 输 出 层 的 值 为 y。 各 层 之 间 的 权重 算 
be W、V、U， 偏 置 向 量 为 p。、c、d， 男 外 使 用 sigmoid 函数 o(:) 作为 激活 函数 ， 那 么 每 
层 神经 元 的 输出 表达 式 可 以 如 下 所 示 。 
































ha) 二 o(Wx 十 b) (4.1) 
ho) 三 o(Vha) 砷 c) (4.2) 
y = softmax(Uho,)+ qd) (4.3) 








输出 层 





图 4.2 有 2 个 隐藏 层 的 神经 网 络 


4.2 ”训练 过 程 中 的 问题 | 139 





接 下 来 的 做 法 与 进行 多 层 感 知 机 模型 化 时 的 做 法 相同 ， 首 先进 行 如 下 定义 。 


p := Wx+b (4.4) 
gq := Vha) +c (4.5) 
r := Uho) +d (4.6) 


那么 权重 WW = (wi wz …Y7 的 梯度 可 以 表示 如 下 。 





OFEn 可 OEn Opj 机 om 。 

















Bw; 8pj wj Op; 
因此 只 需 考虑 5p 即 可 。 应 用 偏 微分 的 连锁 律 ， 得 到 下 列表 达 式 。 
8 和 OF,, Ogk 
J 2 ae Op (4.8) 
天 
OE * 
(ep) (4.9) 


网 络 为 3 层 时 ， 这 个 表达 式 就 如 式 (3.92) 那样 ， 可 以 直接 求 得 各 个 梯度 了 。 
如 果 网 络 有 4 层 ， 那 么 还 必须 去 计算 名 。 于 是 再 一 次 应 用 偏 微分 的 连锁 律 ， 得 到 下 
列表 达 式 。 




















OE _ OEn 97 
二 党 一 4.10 
69 2 6m Ogx 下 
五 
OF, , 
= 2 这 (com (1) 

















3* 是 输出 层 的 部 分 ， 所 以 有 以 下 表达 式 成 立 。 
oF 
Be —(t1 — y1) (4.12) 


也 就 是 说 ， 这 部 分 相当 于 网 络 的 误差 .所 以 先进 行 下 列 定义 ， 





OFEn 








6; := (4.13) 

2 Opj 

Ox := dEn (4.14) 
Ogqk 

01 := dEn (4.15) 
Or 
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然后 如 下 推导 出 4 层 网 络 的 反 向 传播 算法 的 表达 式 。 





天 
6 = 2 0 (pe (4.16) 


= p> (coco (wevoja (4.17) 


即使 隐藏 层 的 个 数 增 加 ， 通 过 重复 应 用 偏 微分 的 连锁 律 ， 也 可 以 固定 各 参数 的 梯度 的 表达 式 。 

这 样 理论 上 是 没有 问题 了 ， 可 在 实际 使 用 这 个 算法 时 存在 着 很 大 的 问题 。 从 式 (4.17) 
可 以 看 出 ， 反 向 传播 表达 式 的 一 部 分 是 sigmoid 函数 微分 的 乘积 ， 而 sigmoid 函数 的 导 函 数 
是 下 面 这 样 的 。 


~ 
ll 
王 
~ 
U 
一 












































0 (x) = o(x)(l — o(x)) (4.18) 


这 个 函数 的 图 形 如 图 4.3 所 示 。 从 图 中 可 以 看 出 ，sigmoid 函数 的 导 函 数 oo'(x) 在 x = 0 时 取 
得 最 大 值 o'(0) = 0.25。 这 就 意味 着 式 (4.17) 的 系数 最 大 也 只 有 0.23*， 如 果 隐 藏 层 有 层 ， 
那么 计算 误差 时 会 被 乘 上 一 个 系数 4w，4N < 0.25” < 1。 因 此 ， 随 着 隐藏 层 数量 的 增加 ， 
会 出 现 误 差 项 的 值 快速 趋 近 于 0 的 问题 。 这 就 是 梯度 消失 问题 的 原因 。 为 了 避免 这 个 问题 
出 现 ， 我 们 需要 想 出 “微分 之 后 值 不 会 变 小 的 激活 函数 ”等 策略 。 


























5 
图 4.3 ”sigmoid 函数 ( 灰 线 ) 及 其 导 函 数 ( 黑 线 ) 








此 外 ,梯度 消失 问题 在 层 不 深 的 情况 下 也 有 可 能 出 现 。 尤 其 是 当 每 层 的 维度 都 很 多 时 ， 
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sigmoid 激活 函数 的 输入 Wx +5 的 值 都 会 比较 大 ， 即 使 层 不 深 , 也 容易 出 现 梯度 消失 
问题 "5。 


4.2.2 过 拟 合 问题 


除 梯度 消失 问题 以 外 ， 还 有 一 个 大 问题 一 一 过 拟 合 ( overfitting )。 它 也 叫 作 过 度 学 习 或 者 
过 度 适应 ， 正 如 其 字面 意思 一 样 ， 指 模型 陷入 “对 数据 过 度 学 习 ” 的 状态 。 这 会 导致 什么 问 
题 呢 ? 让 我 们 来 看 一 个 简单 的 例子 。 如 图 4.4 所 示 的 30 个 遵循 真正 的 分 布 f(x) = cos (至 如 
的 数据 。 











。 
1.0 上 ”。 
0.5 上 
0.0 上 
一 0.$ 上 


一 1.0 上 








志和 入 1 1 1 1 
0.0 0.2 0.4 0.6 0.8 1.0 


图 4.4 f(x) =cos (各 x) 的 图 形 与 样本 数据 ( 黑 点 ) 





























如 果 很 快 就 能 找 出 真正 的 分 布 ( 函数 )， 那 当然 强大 欢喜 ， 可 是 只 根据 实际 得 到 的 样本 
数据 很 难 找 出 完全 匹配 的 真正 分 布 。 于 是 在 神经 网 络 ( 以 及 其 他 数据 分 类 和 预测 的 方法 ) 
中 ， 会 根据 得 到 的 数据 找 出 尽 可 能 接近 真正 分 布 的 近似 分 布 ， 然 后 以 此 来 提高 预测 精度 。 
因此 ， 如 何 设置 用 于 表示 近似 的 函数 就 很 重要 了 。 

比如 把 下 面 的 多 项 式 函 数 用 作 真 正 的 分 布 的 近似 。 














n 
f(x) =aotaxtax + + ax = 》 ai (4.19) 
i=0 


表达 式 中 的 n 越 大 ， 表 达 式 就 越 可 以 用 作 复 杂 函 数 的 近似 (n= 1 时 只 能 表示 直线 ， 而 














PP5 这 时 sigmoid 函数 的 值 o(x) 一 1, 不 











变动 ， 这 种 现象 叫 作 饱 和 saturation ) 现象 。 
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n = 2 时 还 能 够 表示 曲线 )。 那 么 n 越 大 就 越 好 吗 ?” 并 不 是 的 。 图 4.5 是 分 别 对 n= 1,4,16 时 
得 到 的 30 个 数据 的 真正 分 布 取 近似 的 结果 。 



































wi 1 1 1 1 二 竹 1 1 1 New 1 1 1 1 
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 C2 0.4 0.6 0.8 1.0 


图 4.5 基于 1 次 函数 的 近似 ( 左 )、 基 于 4 次 函数 的 近似 (中)、 基 于 16 次 函数 的 近似 ( 右 ) 























只 能 表示 直线 的 n= 1 的 函数 不 能 很 好 地 近似 ， 而 能 够 进行 更 复杂 近似 的 n= 16 的 函 
数 却 过 度 近似 了 ， 它 只 能 匹配 样本 数据 ， 结 果 反 而 偏离 了 真正 的 分 布 。 对 于 这 种 样本 数据 
数量 有 限 的 情况 ,函数 即使 与 给 定数 据 匹 配 得 很 好 ， 也 不 一 定 适用 于 新 拿 到 的 数据 。 像 
n = 16 的 函数 这 样 ， 过 于 匹配 样本 数据 的 情况 就 是 “过 拟 合 ”5。 

过 拟 合 对 于 神经 网 络 来 说 是 一 个 很 大 的 问题 。 不 管 是 增加 隐藏 层 中 的 神经 元 个 数 ， 还 
是 增加 隐藏 层 的 个 数 ， 只 要 整个 网 络 的 神经 元 个 数 增加 ， 模 型 就 可 以 表现 更 为 复杂 的 模式 。 
但 是 ， 正 如 我 们 在 上 面 考察 的 例子 中 看 到 的 那样 ， 仅 对 训练 数据 进行 复杂 的 匹配 ， 很 有 可 
能 得 到 与 实际 的 数据 分 布 大 相 径 庭 的 分 布 。 这 也 就 是 说 ， 虽 然 在 训练 模型 时 会 以 误差 羡 数 
EE 的 最 小 化 为 目标 去 更 新 参数 的 值 ， 但 只 是 单纯 地 对 进行 最 小 化 有 可 能 导 禾 过 拟 合 ， 所 
以 并 不 是 一 味 地 进行 最 小 化 就 好 。 如 果 在 实验 中 碰 到 对 训练 数据 预测 得 很 好 ， 而 对 测试 数 
据 预 测 得 不 好 的 情况 ,首先 就 要 怀疑 是 不 是 发 生 了 过 拟 合 。 































































































训练 的 高 效 化 

通过 上 一 节 的 学 习 我 们 知道 ， 在 考虑 深度 学 习 网 络 时 ， 为 了 正确 地 进行 训练 需要 解决 
许多 问题 。 不 过 ， 不 管 是 梯度 消失 问题 还 是 过 拟 合 问题 ， 我 们 已 经 清楚 原因 了 ， 剩 下 的 就 
是 思考 如 何 解决 这 些 问题 。 深 度 学 习 就 是 一 种 技术 的 集合 ， 用 来 解决 在 网 络 深层 化 时 出 现 





















































6 与 过 拟 合 (overfitting ) 相对 的 词汇 是 欠 拟 合 (underfitting )， 指 的 是 像 n = 1 时 那样 未 能 取得 近似 分 布 的 情况 。 
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的 问题 。 其 中 的 每 一 个 技术 都 不 难 掌握 ， 让 我 们 依次 去 理解 它们 。 
4.3.1 激活 函数 


在 了 解 多 层 感知 机 的 模型 化 时 学 过 ， 输 出 层 的 激活 函数 必须 是 能 输出 概率 的 函数 ， 一 
般 用 的 是 sigmoid 函数 或 softmax 函数 ， 但 理论 上 ， 隐 藏 层 的 激活 函数 只 要 是 “ 收 到 小 值 就 
渝 出 小 值 ， 收 到 大 值 就 输出 大 值 ”的 函数 即 可 。 如 果 用 sigmoid 函数 会 导致 梯度 消失 ,那么 
可 以 考虑 用 别 的 激活 函数 来 避免 这 个 问题 发 生 。 























4.3.1.1 双 曲 正切 函数 

应 该 用 什么 样 的 激活 函数 ， 我 们 首先 看 一 看 有 没有 “与 sigmoid 隐 数 形式 相似 ， 
是 i 的 函数 。 双 曲 正 切 函 数 (hyperbolic tangent function ) 满足 这 个 条 件 。 
这 个 函数 记 作 tanh(x)， 定 义 式 如 下 所 示 。 





ex— erx 


tanh(x) = 和 





(4.20) 

















函数 的 图 形 如 图 4.6 所 示 。 虽 然 与 sigmoid 函数 o(x) 形式 相似 * ,但 是 请 注意 ,在 
-co <XY< +co 区 间 内 , 0 <o(x)<1, 而 -1 <tanh(x)<1。 




















图 4.6 双 曲 正切 函数 的 图 形 











7 sigmoid 函数 与 双 曲 正切 函数 之 间 有 tanh(x) = 2o(2x) - 1 的 关系 ， 所 以 二 者 的 形式 相似 并 不 奇怪 。 将 sigmoid 
函数 “横向 缩短 、 纵 向 拉 长 ”( 即 缩放 ) 之 后 就 可 以 得 到 双 曲 正切 函数 。 
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如 果 将 双 曲 正切 函数 用 作 激 活 函 数 ， 那 么 在 求 梯 度 时 需要 用 到 tanh’(x)， 如 式 (4.21) 
所 示 。 


4 


tanh’ (x) 二 (Te 


(4.21) 
它 的 图 形 如 图 4.7 所 示 。sigmoid 函数 的 导 函 数 o'(x) 的 最 大 值 为 o'(0) = 0.25， 而 tanh’(x) 
的 最 大 值 是 tanh'(0) = 1， 从 这 一 点 可 以 得 知 ， 与 sigmoid 孔 数 相 比 ， 双 曲 正 切 函 数 的 梯度 
更 不 容易 消失 。 
































1 
| | | 
-10 -5 0 5 10 


图 4.7 sigmoid 函数 的 导 函 数 ( 灰 线 ) 与 双 曲 正切 函数 的 导 函 数 ( 黑 线 ) 




















使 用 双 曲 正切 函数 的 实现 也 非常 简单 ， 如 果 用 TensorFlow， 只 需 用 tf.nn.tanh() 替换 
tf.nn.sigmoid(); 而 如 果 用 Keras， 只 需 用 Activation('tanh') 替换 Activation('sigmoid') 
即 可 。 接 下 来 ， 试 着 用 10 000 张 MNIST 数据 对 有 4 个 隐藏 层 的 网 络 做 一 下 测试 ， 这 是 在 使 
用 sigmoid 函数 时 没 能 成 功 训 练 的 。 用 Keras 库 进 行 实现 的 代码 (模型 部 分 ) 如 下 所 示 。 











model = Sequential() 
model.add(Dense(n_hidden, input_dim=n_in)) 
model.add(Activation('tanh')) 


model.add(Dense(n_hidden)) 
model.add(Activation('tanh')) 


model.add(Dense(n_hidden)) 
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model.add(Activation('tanh')) 


model.add(Dense(n_hidden)) 
model.add(Activation('tanh')) 


model.add(Dense(n_out)) 
model.add(Activation('softmax' )) 


model.compile(loss='categorical crossentropy', 
optimizer=SGD(Lr=0.01)， 


metrics=['accuracy ']) 





运行 后 得 到 了 预测 精度 91.60% 的 结果 ， 的 确 完成 了 训练 ”5 ”?。 


4.3.1.2 ReLU 
使 用 双 曲 正切 函数 以 后 ， 虽 然 梯度 不 容易 消失 了 ， 但 是 和 使 用 sigmoid 函数 时 一 样 ， 
在 处 理 高 维度 的 数据 时 ， 函 数 的 输入 值 变 大 导致 梯度 消失 的 问题 依然 存在 。 一 般 数据 越 
， 数 据 的 维度 就 越 高 ， 因 此 使 用 能 够 避 开 这 个 问题 的 激活 函数 是 最 理想 的 。ReLU 
( Rectified Linear Unit ) 就 是 满足 这 个 要 求 的 函数 ”0。 其 定义 式 如 下 所 示 。 
f(x) = max(0, x) (4.22) 




















ReLU 的 图 形 如 图 4.8 所 示 。 这 个 函数 的 特点 是 没有 曲线 部 分 ， 这 一 点 与 sigmoid 函数 和 双 
曲 正 切 函 数 不 同 。 对 它 进行 微分 后 得 到 以 下 函数 。 


ws 1 (x>0) 
f° (x) = , 直人 (4.23) 





从 中 可 以 看 出 它 的 导 函 数 是 一 个 阶 跃 函数 。 

无 论 x 的 值 多 大 ，ReLU 的 导 函 数 都 返回 1， 所 以 梯度 不 会 消失 。 另 外 ， 它 可 以 提高 训 
练 速度 ， 比 用 sigmoid 函数 和 双 曲 正切 函数 时 都 要 快 。ReLU 及 其 导 函 数 中 没有 指数 防 数 的 
计算 ， 用 简单 的 表达 式 即 可 表示 ， 因 此 它 还 有 计算 速度 快 的 优点 ”。 














8 书 中 没有 附 上 用 TensorFlow 库 开发 的 代码 ， 有 兴趣 的 读者 请 参考 本 书 随 书 下 载 代码 包 中 的 4/tensorflow/01_ 


mnist_tanh_tensorflow.py。 
9 分 别 使 用 sigmoid 函数 和 双 曲 正切 函数 作为 激活 函数 的 比较 实验 及 考察 在 文献 [1] 中 有 详细 的 论述 ， 请 参考 。 


P10 中 文中 有 时 候 称 之 为 线性 整流 函数 或 修正 线性 单元 ， 但 一 般 来 说 直接 叫 ReLU 的 时 候 更 多 ， 所 以 本 书 也 采 
和 ReLU 的 叫 法 。 


P11 有 关 使 用 ReLU 作为 激活 函数 可 以 提高 学 习 效 率 的 结论 ， 在 文献 [2] 中 有 详细 的 论述 。 
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图 4.8 ReLU 的 图 





过 在 x < 0 时， 函数 的 值 以 及 梯度 都 是 0， 所 以 在 使 用 ReLU 作为 激活 函数 的 网 络 
中 ， ed 次 不 激活 ， 整 个 训练 过 程 中 就 一 直 不 激活 的 现象 。 尤 其 是 将 学 
习 率 设置 为 很 大 的 值 时 ， 神 经 元 的 值 会 在 最 开始 的 误差 反 向 传播 中 变 得 过 小 ， 导 致 该 神经 
元 就 像 在 网 络 中 不 存在 一 样 。 大 家 需要 注意 这 个 问题 。 不 过 ReLU 还 是 因为 其 优点 成 为 了 











深度 学 习 中 最 常用 的 一 个 激活 函数 。 























使 用 ReLU 的 实现 也 非常 简单 ， 用 TensorFlow 和 Keras 开发 时 分 别 使 用 tf.nn.relu() 





和 Activation('relu') 即 可 。 下 面 的 代码 就 是 使 用 Keras 库 进 


切 函 数 时 一 样 ， 可 以 将 模型 定义 如 下 。 





model = Sequential() 
model.add(Dense(n_hidden, input_dim=n_in)) 
model.add(Activation('relu')) 


model.add(Dense(n_hidden)) 
model.add(Activation('relu')) 


model.add(Dense(n_hidden)) 
model.add(Activation('relu')) 


model.add(Dense(n_hidden)) 
model.add(Activation('relu')) 


行 开 发 的 示例 ， 与 用 双 曲 正 
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model.add(Dense(n_out)) 
model.add(Activation('softmax' )) 


model.compile(loss='categorical crossentropy', 


optimizer=SGD(Lr=0.01)， 


metrics=['accuracy']) 


执行 这 段 代码 迭代 50 次 ， 得 到 预测 精度 93.5% 的 结果 * 7。 


4.3.1.3 Leaky ReLU 
Leaky ReLU 函数 (以 下 简称 LReLU ) 相当 于 ReLU 的 改进 版 ,其 定义 式 如 下 。 


f(x) = max(ax, x) (4.24) 





这 里 的 c 表示 0.01 等 较 小 的 常数 。LReLU 的 图 形 如 图 4.9 所 示 。 该 函数 与 ReLU 的 不 同 在 
于 ax 部 分 ， 所 以 在 x < 0 时 有 一 个 微小 的 倾斜 (@ )。 通 过 对 LReLU 进行 微分 也 能 够 确认 


这 一 点 


prs.) 
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图 4.9 Leaky ReLU 的 图 形 


f(x) = | a (4.25) 


a (x<0) 











P12 使 用 TensorFlow 库 实 现 的 代码 在 本 书 随 书 下 载 代码 包 中 的 4/tensorflow/02_mnist_relu_tensorflow.py 中 。 
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ReLU 在 x < 0 时 梯度 会 消失 ， 所 以 有 训练 结果 不 稳定 的 问题 ， 而 LReLU 在 x < 0 时 
也 能 够 训练 ， 理 论 上 它 应 该 是 比 ReLU 更 有 效果 的 激活 函数 。 不 过 ， 实 际 上 它 有 时 有 效果 ， 
有 时 没 效 果 ， 至 于 什么 时 候 才 有 效果 ， 现 在 还 不 明确 “>。 

如 果 想 在 代码 中 使 用 LReLU， 需 要 自行 定义 ， 因 为 TensorFlow 尚未 提供 相关 API。 不 
过 LReLU 的 表达 式 一 点 都 不 难 ， 只 要 进行 如 下 定义 ， 

















def lrelu(x, alpha=0.01): 


returm tf maximum(alpha > xx 


然后 把 前 面 代码 中 的 tn.nn.relu() 换 成 lrelu() 即 可 。 修 改 后 的 模型 输出 部 分 的 代码 如 下 
所 示 。 








# 输入 层 - 隐藏 层 
Wo = tf.Variable(tf.truncated normal([n_in, n_hidden], stddev=0.01)) 
bo = tf.Variable(tf.zeros([n_hidden])) 

ho = lrelu(tf.matmul(x, WO0) + b0) 








# 隐藏 层 - 隐藏 层 
W1 = tf.Variable(tf.truncated normal([n_hidden, n_hidden], stddev=0.01)) 
b1 = tf.Variable(tf.zeros([n_hidden])) 

h1 = lrelu(tf.matmul(h0, W1) + b1) 


W2 = tf.Variable(tf.truncated normal([n_hidden, n_hidden], stddev=0.01)) 
b2 = tf.Variable(tf.zeros([n_hidden])) 
h2 = lrelu(tf.matmul(h1, W2) + b2) 


W3 = tf.Variable(tf.truncated normal([n_hidden, n_hidden], stddev=0.01)) 
b3 = tf.Variable(tf.zeros([n_hidden])) 
h3 = lrelu(tf.matmul(h2, W3) + b3) 








# 隐藏 层 -输出 层 
W4 = tf.Variable(tf.truncated normal([n_hidden, n_out], stddev=0.01)) 
b4 = tf.Variable(tf.zeros([n_out])) 

y = tf.nn.softmax(tf.matmul(h3, W4) + b4) 


Keras 库 提供 了 LReLU， 不 过 它 不 在 我 们 前 面 从 keras.layers.core 导入 的 Activation 


P13 比如 最 早 提出 LReLU 的 文献 [3] 中 就 提 到 过 “使 用 LReLU 没有 效果 ”。 
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中 ， 而 是 在 keras.layers.advanced_activations 中 。 所 以 ,首先 在 文件 的 开头 进行 导入 。 


from keras.layers.advanced activations import LeakyReLU 


然后 编写 如 下 代码 。 


alpha = 0.01 


model = Sequential() 
model.add(Dense(n_hidden, input_dim=n_in)) 
model.add(LeakyReLU(alpha=alpha)) 





model.add(Dense(n_hidden)) 
model.add(LeakyReLU(alpha=alpha)) 


model.add(Dense(n_hidden)) 
model.add(LeakyReLU(alpha=alpha)) 


model.add(Dense(n_hidden)) 
model.add(LeakyReLU(alpha=alpha)) 


model.add(Dense(n_out)) 
model.add(Activation('softmax' )) 


4.3.1.4 Parametric ReLU 

LReLU 在 x < 0 时 的 梯度 @ 是 固定 的 ， 把 这 个 梯度 也 通过 训练 进行 最 优化 的 方法 叫 作 
Parametric ReLU (以 下 简称 PReLU )。 假 设 激活 之 前 的 值 (向 量 ) 为 p := (pi1…pj…p7)1， 
那么 激活 函数 PReLU 可 以 表示 为 如 下 所 示 的 了 (:) 函数 。 























~_Jjp:  (p;>0) 
f(pi) = | wp (pr<0) (4.26) 








也 就 意味 着 PReLU 中 用 到 的 不 是 标量 gg， 而 是 问 量 aw := (ol … “0) so 
由 于 这 个 向 量 是 需要 最 优化 的 参数 (之 一 )， 所 以 与 权重 和 a 对 误差 
函数 EE 的 @j 求 梯度 即 可 。 使 用 偏 微 分 的 连锁 律 对 其 进行 计算 ,可 以 得 到 以 下 表达 式 。 
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加 > aE 9f(p;) 42) 


0f (pj) OQ; 








右边 两 项 中 的 5 站 是 从 上 一 层 (也 就 是 正 向 传播 的 下 一 层 ) 反 向 传播 来 的 误差 项 ， 所 以 
是 已 知 的 。 此 外 ,根据 式 (4.26) 可 以 如 下 求 得 吕 氏 。 








af(p7) _ | (pj > 0) a 


Oa p; (pi; <0) 











此 梯度 可 计算 ， 我 们 可 以 通过 随机 梯度 下 降 法 对 参数 进行 最 优化 了 。 
和 LReLU 时 一 样 ，TensorFlow 也 没有 提供 PReLU 的 API， 所 以 在 实现 时 需要 自行 定义 
PReLU 函数 。 式 (4.26) 可 以 替换 为 如 下 所 示 的 表达 式 ， 




















f (pj) = max(0, pj) + Qj min(0, pj) (4.29) 


所 以 用 这 个 只 有 1 行 的 公式 来 实现 比较 好 。 这 样 定义 的 prelu() 的 代码 如 下 所 示 。 





def prelu(x, alpha): 
return tf.maximum(tf.zeros(tf.shape(x)), x) \ 


+ alpha * tf.minimum(tf.zeros(tf.shape(x)), x) 


男 外 ， 由 于 @ 是 参数 ， 所 以 各 层 的 定义 如 下 所 示 。 








# 输入 层 - 隐藏 层 
Wo = tf.Variable(tf.truncated normal([n_in, n_hidden], stddev=0.01)) 
bo = tf.Variable(tf.zeros([n_hidden])) 
alpha0 = tf.Variable(tf.zeros([n_hidden])) 

= prelu(tf.matmul(x, W0) + b0，alpha0) 





# 隐藏 层 - 隐藏 层 
W1 = tf.Variable(tf.truncated normal([n_hidden, n_hidden], stddev=0.01)) 
b1 = tf.Variable(tf.zeros([n_hidden])) 

alpha1 = tf.Variable(tf.zeros([n_hidden])) 

h1 = prelu(Ctf.matmul(ho，W1) + b1，alphal1) 





W2 = tf.Variable(tf.truncated normal([n_hidden, n_hidden], stddev=0.01)) 
b2 = tf.Variable(tf.zeros([n_hidden])) 
alpha2 = tf.Variable(tf.zeros([n_hidden])) 

= prelu(tf.matmul(h1, W2) + b2, alpha2) 
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W3 = tf.Variable(tf.truncated normal([n_hidden, n_hidden], stddev=0.01)) 
b3 = tf.Variable(tf.zeros([n_hidden])) 

alpha3 = tf.Variable(tf.zeros([n_hidden])) 

h3 = prelu(tf.matmul(h2, W3) + b3, alpha3) 








# 隐藏 层 - 输出 层 
W4 = tf.Variable(tf.truncated normal([n_hidden, n_out], stddev=0.01)) 
b4 = tf.Variable(tf.zeros([n_out])) 

y = tf.nn.softmax(tf.matmul(h3, W4) + b4) 


用 Keras 库 的 实现 与 实现 LeakyReLU 时 一 样 ， 也 需要 从 keras.layers.advanced_activations 
中 导入 PReLU。 修 改 后 的 模型 代码 如 下 所 示 “ 1。 





from keras.layers.advanced activations import PReLU 


model = Sequential() 
model.add(Dense(n_hidden, input_dim=n_in)) 
model.add(PReLU()) 


model.add(Dense(n_hidden)) 
model.add(PReLU()) 


model.add(Dense(n_hidden)) 
model.add(PReLU()) 


model.add(Dense(n_hidden)) 
model.add(PReLU()) 


model.add(Dense(n_out)) 
model.add(Activation('softmax' )) 


model.compile(loss='categorical _ crossentropy', 
optimizer=SGD(Lr=0.01)， 
metrics=['accuracy']) 


除了 在 x < 0 时 引入 梯度 的 LReLU 和 PReLU 以 外 ， 人 们 还 提出 了 许多 派生 于 ReLU 的 
激活 函数 。 比 如 在 训练 时 从 均匀 随机 数 中 选择 梯度 ， 而 测试 时 使 用 其 平均 值 的 Randomized 
ReLU ( 以 下 简称 RReLU )， 还 有 使 用 下 面 的 f(:) 的 Exponential Linear Units ( 以 下 简称 
ELU ) 等 。 








P14 提出 了 PReLU 的 文献 [4] 中 还 总 结 了 PReLU 与 其 他 方法 的 比较 实验 等 内 容 ， 请 参考 。 
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(x > 0) 


Xx 
Ts | ex -1 (x<0) 0 





但 无 论 用 哪个 激活 函数 ， 基 本 的 思路 都 是 一 样 的 。 至 于 “应 该 用 哪个 激活 函数 做 实验 ”的 
问题 ， 建 议 首先 选择 ReLU 或 者 LReLU， 一般 来 说 这 两 个 基本 就 能 满足 需求 。 关 于 RReLU 
和 ELU 的 详细 内 容 请 参考 文献 [5] 和 文献 [6]。 


4.3.2 Dropout 








通过 对 激活 函数 进行 完善 ， 我 们 解决 了 梯度 消失 问题 。 不 过 在 训练 深度 神经 网 络 的 过 
程 中 ， 还 有 一 个 拦路 虎 : 过 拟 合 问题 。 我 们 把 不 针对 训练 数据 进行 优化 且 以 提高 测试 数据 
(未 知 数据 ) 预测 精度 为 目的 的 模式 分 类 称 为 泛 化 ( generalization )。 为 了 防止 过 拟 合 ， 我 们 
需要 提高 模型 的 泛 化 能 

好 在 有 简单 的 方法 可 以 提高 神经 网 络 的 泛 化 能 力 。 这 个 方法 叫 作 dropout， 其 含义 与 
字面 意思 相同 ， 指 的 是 在 训练 时 随机 “dropout”( 除去 ) 神经 元 的 方法 。 图 4.10 是 一 个 应 用 
了 dropout 的 神经 网 络 示 例 。 被 标记 为 x 的 神经 元 就 是 被 dropout 的 神经 元 ， 它 们 就 像 “ 在 
网 络 中 不 存在 ”一 样 。 每 次 训练 时 都 会 随机 选取 要 dropout 的 神经 元 ， 这 样 整个 训练 过 程 中 
参数 的 值 就 会 得 以 调整 。dropout 的 概率 是 p， 一 般 选 择 p = 0.5。 在 训练 结束 后 的 测试 和 预 
测 阶段 ,虽然 不 进行 dropout， 但 是 会 做 一 些 调整 ， 比 如 ， 权 重 为 WW 时 的 输出 就 会 使 用 整个 
训练 过 程 的 “平均 值 ”(1 - p)W。 

为 什么 dropout 可 以 提高 泛 化 能 力 呢 ? 一 个 比较 好 理解 的 解释 是 ， 使 用 dropout 后 ， 实 质 
上 生成 并 训练 了 多 个 网 络 ， 然 后 是 利用 这 多 个 网 络 进行 预测 的 。 如 果 只 训练 一 个 模型 ， 很 
容易 发 生 过 拟 合 ， 但 是 训练 多 个 模型 再 分 别 去 预测 ， 得 到 的 就 是 “集体 智慧 >， 可 以 规避 发 
生 过 拟 合 的 风险 。 生 成 多 个 模型 并 进行 训练 的 做 法 称 为 集成 学 习 (ensemble learning )。 由 于 
应 用 了 dropout 的 神经 网 络 模型 实际 上 只 有 一 个 ， 所 以 dropout 的 做 法 近似 于 集成 学 习 * 5。 

那么 该 如 何 用 数学 表达 式 表示 dropout 呢 ? 其 实 并 不 难 ， 只 需 让 神经 元 乘 以 随机 取 0 或 
1 的 “ 掩 码 ”( mask ) 即 可 。 假 定 有 向 量 x := (707 … my)?， 其 中 ;是 有 (1-p) 的 概 
率 取 1， 有 pp 的 概率 取 0 的 值 。 如 果 未 使 用 dropout， 那 么 网 络 在 某 一 层 的 正 向 传播 的 表达 
式 如 式 (4.31) 所 示 。 














































































































P15 在 4.3.1.4 节 介绍 的 Randomized ReLU 所 做 的 也 是 集成 学 习 。 
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图 4.10 应 用 了 dropout 的 神经 网 络 示 例 











hi= f(Wx+5b) (4.31) 





如 果 使 用 dropout， 就 等 于 在 表达 式 中 加 入 掩 码 ， 这 时 正 向 传播 的 表达 式 就 会 变 成 下 面 


这 样 。 





hi=f(Wx+b)om (4.32) 








这 说 明 只 需 乘 以 掩 码 向 量 m 即 可 表示 dropout， 表 达 式 的 形式 非常 简单 。 不 过 需要 注意 的 
是 ,既然 在 正 向 传播 时 使 用 了 扼 码 项 ， 那 么 在 反 向 传播 时 也 要 带 上 掩 码 项 。 如 下 定义 ha 的 
下 一 层 ， 








jp = g(Vhi + ce) (4.33) 

那么 对 于 下 列表 达 式 ， 
p := Wx+b (4.34) 
4 := Vhi+tce (4.35) 


误差 项 ep, 、e 分 别 表示 如 下 (参考 式 (3.97) ~ 式 (3.101) )。 


OFEn 

en := Bp (4.36) 
FE 

Bhy := (4.37) 
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又 由 于 以 下 表达 式 成 立 ， 
q=V/(pOom+e (4.38) 
所 以 可 以 推导 出 下 列表 达 式 ， 
_ dEn 0g 
en = By (4.39) 
= f’'(p)O moOV!en, (4.40) 


说 明 在 反 向 传播 时 也 需要 掩 码 项 m。 

dropout 的 实现 也 很 简单 。 首 先 看 一 看 用 TensorFlow 是 如 何 实现 的 。 应 用 dropout 时 ， 
要 使 用 tf.nn.dropout()。 确 定 表达 式 时 ， 是 按照 先 得 出 正 向 传播 的 基本 表达 式 ， 再 乘 以 掩 
码 的 顺序 进行 的 ， 而 实现 时 也 按照 这 个 顺序 来 定义 模型 。 比 如 之 前 “输入 层 - 隐藏 层 ”的 
代码 如 下 所 示 ， 




















Wo = tf.Variable(tf.truncated normal([n_in, n_hidden], stddev=0.01)) 
bo = tf.Variable(tf.zeros([n_hidden])) 
ho = tf.nn.relu(Ctf.matmul(x，W0) + b0) 


如 果 要 使 用 dropout， 还 要 再 进行 如 下 定义 。 


ho_drop = tf.nn.dropout(h0, keep_prob) 





这 里 的 keep_prob 指 的 是 不 进行 dropout 的 概率 ( (1 - p) )。keep_prob 的 值 会 发 生变 动 ， 在 
训练 时 为 0.5， 测 试 时 为 1.0， 所 以 需要 把 它 作 为 placeholder 定义 。 定 义 整 体 模型 的 代码 如 
下 所 示 。 这 次 设置 了 3 个 隐藏 层 。 


x= tf.placeholder(tf.float32, shape=[None, nein]) 
t = tf.placeholder(tf.float32, shape=[None, n_out]) 
keep_prob = tf.placeholder(tf.float32) # 不 进行 dropout 的 概率 




















# 输入 层 - 隐藏 层 
Wo = tf.Variable(tf.truncated normal([n_in, n_hidden], stddev=0.01)) 
bo = tf.Variable(tf.zeros([n_hidden])) 
ho = tf.nn.relu(Ctf.matmul(x，W0) + b0) 
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ho_drop = tf.nn.dropout(h0, keep_prob) 








# 隐藏 层 - 隐藏 层 
W1 = tf.Variable(tf.truncated normal([n_hidden, n_hidden], stddev=0.01)) 
b1 = tf.Variable(tf.zeros([n_hidden])) 

h1 = tf.nn.relu(tf.matmul(h@_drop, W1) + b1) 

hi_drop = tf.nn.dropout(h1, keep_prob) 


W2 = tf.Variable(tf.truncated normal([n_hidden, n_hidden], stddev=0.01)) 
b2 = tf.Variable(tf.zeros([n_hidden])) 
h2°="tf.nn.relu(tf.matmul(hidrop WwW2) + b2) 

h22drop = tf ‘nn:dropout(h2, keep®prob) 








# 隐藏 层 - 输出 层 
W3 = tf.Variable(tf.truncated normal([n_hidden, n_out], stddev=0.01)) 
b3 = tf.Variable(tf.zeros([n_out])) 

y = tf.nn.softmax(tf.matmul(h2_drop, W3) + b3) 





接 下 来 是 在 实际 训练 中 ， 对 模型 应 用 dropout 的 代码 。 


for epoch in range(epochs ) : 
XY shutfle(X tra Y tain) 


for i in range(n_batches): 
start = i * batch size 
end = start + batch_size 


sess.run(tralinstep feedrdlict=1 
x: X_[start:end], 
te starmenale 
keepprobE oss 

7) 


请 注意 这 时 keep_prob 的 值 为 6.5。 至 于 训练 后 的 测试 阶段 ， 由 于 不 进行 dropout， 所 以 代 
码 如 下 所 示 。 


accuracy_rate = accuracy.eval(session=sess, feed dict={ 
XK Fest 
Vteste 
keep_prob: 1.0 

}) 
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使 用 Keras 库 时 的 做 法 也 一 样 。 首 先导 入 Dropout， 





from keras.layers.core import Dropout 





然后 用 下 面 几 行 代码 即 可 轻松 应 用 dropout。 


model.add(Dense(n_hidden, input_dim=n_in)) 
model.add(Activation('tanh')) 
model.add(Dropout(0.5)) 





这 里 的 0.5 和 使 用 TensorFlow 库 时 的 不 同 ， 是 进行 dropout 的 概率 。 另 外 ， 从 dropout 的 定 
义 可 以 看 出 ， 激活 函 数 可 以 任 选 ， 所 以 这 里 试 着 用 一 下 Activation('tanh')。 和 定义 模型 的 
代码 如 下 所 示 。 


model = Sequential() 
model.add(Dense(n_hidden, input_dim=n_in)) 
model.add(Activation('tanh')) 
model.add(Dropout(0.5)) 


model.add(Dense(n_hidden)) 
model.add(Activation('tanh')) 
model.add(Dropout(0.5)) 


model.add(Dense(n_hidden)) 
model.add(Activation('tanh')) 
model.add(Dropout(0.5)) 


model.add(Dense(n_out)) 
model.add(Activation('softmax' )) 











使 用 dropout 时 也 一 样 ， 有 了 库 就 不 需要 在 编写 代码 时 费心 于 误差 反 向 传播 的 梯度 计算 了 。 
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代码 的 设计 


4.4.1 基本 设计 


到 此 为 止 ， 我 们 已 经 用 ReLU 等 激活 函数 和 dropout 等 方法 实现 了 深度 学 习 的 模型 。 如 
果 使 用 TensorFlow 或 Keras 这 样 的 库 ， 只 需 不 断 地 增加 以 下 





= tf.Variable(tf.truncated normal([m, n], stddev=0.01)) 
tf.Variable(tf.zeros([n])) 

= tf.nn.relu(tf.matmul(x, W) + b) 

_drop = tf.nn.dropout(h, keep_prob) 


rn 1 1 = he 
ll 





或 以 下 定义 层 的 代码 ， 


model.add(Dense(n)) 
model.add(Activation('relu')) 
model.add(Dropout(0.5)) 


即 可 轻松 设置 模型 。 但 是 ， cae ne (比如 修改 激活 函 
数 等 ) 时 ， 这 样 的 写法 承 会 有 些 不 方便 。 所 以 在 这 一 症 ， 我 们 将 视线 暂时 从 座 度 学 习 的 理 
论 上 移 开 ， 一 起 去 看 一 ea en 














4.4.1.1 使 用 TensorFlow 的 实现 
定义 神经 网 络 模型 的 整体 流程 可 以 总 结 如 下 。 





定义 模型 的 输出 
定义 误差 销 数 


训练 模型 
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如 果 使 用 TensorFlow， 推 荐 大 家 将 上 述 流程 分 步 进 行 函 数 化 ， 分 别 定义 inference()、 
loss() 、training() ”16。 每 个 函数 的 作用 如 下 所 示 。 








@ inference(): 对 整个 模型 进行 设置 ， 返 回 模型 的 输出 及 预测 结 
@ 1oss(): 定义 模型 的 误差 因数 ， 返 回 误 差 和 损失 
@ training(): 训练 模型 ， 返 回 训 练 结 果 ( 进度 情况 ) 





因此 ,整体 的 实现 流程 可 以 大 体 上 采用 如 下 结构 编写 ”7。 


def inference(x): 
# 定义 模型 


def loss(y tt).: 
# 定义 误差 函数 


def training(1oss) : 


# 定义 训练 算法 


if _ name == ' main 
# 1. 准备 数据 
# 2. 设置 模型 
y = inference(x) 








Tosse loss (Vt 
train_step = training(loss) 
# 3 .训练 模型 

# 4. 评估 模型 








可 以 说 inference()、1loss() 、training() 都 是 为 了 让 代码 中 的 “2. 设置 模型 ”更 井井有条 而 
定义 的 方法 。 下 面 让 我 们 依次 来 看 一 下 这 些 方法 。 

首先 是 y = inference(x) 方法 。 前 面 都 是 用 he、hi1 等 按 顺 序 定义 的 各 个 层 ， 现 在 为 了 
能 够 统一 定义 ， 需 要 把 各 层 的 神经 元 个 数 作为 参数 抽取 出 来 。 此 外 ， 为 了 支持 dropout， 在 
x 之 外 还 需 把 keep_prob 当 作 参数 ， 所 以 如 下 进行 定义 就 可 以 很 好 地 把 处 理 汇总 到 一 起 了 。 








defminference(x keepB probe noin nhiddens niout): 


P16 https://www.tensorflow.org/get_started/mnist/mechanics 
P17 虽然 不 写 if _name_ == '\_main _' : 这 一 行 也 没有 问题 , 但 是 在 某 些 场景 下 加 上 这 一 行 后 会 比较 方便 。 
比如 当 外 部 文件 只 想 调用 本 文件 中 的 函数 时 ， 本 文件 中 的 代码 就 不 会 被 执行 。 
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if _ name == ' main  ': 
# 2. 设置 模型 
n_in = 784 
n_hiddens = [200，200，200] # 各 隐藏 层 的 维度 
n_out = 10 


Xi= tf.placeholder(tf.float32, shape=[None, nein]) 
keepuprob = tf.placeholder(tf.float32) 


y = inference(x, keep_prob, n_in=n_in, n_hiddens=n_hiddens, n_out=n_out) 











接着 来 定义 实际 的 inference() 的 内 部 处 理 。 从 输入 层 开始 到 进入 输出 层 之 前 ， 所 有 的 输 
出 都 可 以 用 同样 的 表达 式 表 示 ， 而 只 有 输出 层 的 激活 函数 是 softmax 函数 (或 者 sigmoid 函 
数 )， 所 以 如 下 编写 代码 。 














defminference(x keeplprobpnam nniddens no 
def weight_variable(shape): 
initial = tf.truncated normal(shape, stddev=0.01) 


return tf.Variable(initial) 


def bias_variable(shape) 
initial = tf.zeros(shape) 


return tf.Variable(initial) 

















# 输入 层 - 隐藏 层 、 隐 藏 层 - 隐藏 层 
for i, n_hidden in enumerate(n_hiddens): 





if i == 
input = x 
input_dim = n_in 
else: 
input = output 


input_dim = n_hiddens[i-1] 


weight_variable([input_dim, n_hidden]) 
b = bias_variable([n_hidden]) 


h = tf.nn.relu(tf.matmul(input, W) + b) 
output = tf.nn.dropout(h, keep_prob) 











# 隐藏 层 -输出 层 
= weight_variable([n_hiddens[-1], n_out]) 

b_out = bias_variable([n _ out]) 

y = tf.nn.softmax(tf.matmul(output, W_out) + b_out) 


return y 














通过 对 weight_variable() 和 bias_varable() 进行 定义 ,权重 和 偏 置 的 初始化 处 理 也 可 以 
复 用 了 *”。 虽然 for 语句 中 的 “输入 层 - 隐藏 层 ”和 “隐藏 层 - 隐藏 层 ” 的 处 理 有 些许 不 
同 , 但 它们 代码 的 逻辑 基本 相同 ， 都 是 把 前 一 层 的 output 作为 下 一 层 的 input 而 已 。 

定义 好 模型 的 输出 之 后 ， 接 下 来 是 loss(y，t) 以 及 training(loss)， 它 们 的 实现 与 之 
前 没有 区 别 ， 代 码 如 下 所 示 。 














defliossiy at 下 
cross_entropy = tf.reduce_mean( 
stfareducessumCe ~ tf.log(y) reduction indices=01]D)) 


return cross_entropy 


def training(1oss) : 
optimizer = tf.train.GradientDescentOptimizer(0.01) 
train_step = optimizer .minimize(1oss) 


returm train step 











函数 内 部 的 代码 本 身 虽然 没有 变 , 但 是 把 它们 封装 为 函数 会 有 一 个 好 处 ， 就 是 代码 整体 变 
得 整洁 易 读 了 *”。 另 外 ，TensorFlow 还 提供 了 可 以 在 浏览 器 上 访问 的 图 形 界面 ， 可 以 查看 
模型 的 设计 和 训练 的 进度 情况 。 关 于 可 视 化 的 详细 内 容 请 参考 A.2 节 ， 而 按照 本 节 介 绍 的 
设计 方法 编写 ， 有 利于 实现 可 视 化 。 





4.4.1.2 ”使 用 Keras 的 实现 

由 于 使 用 Keras 库 的 实现 本 里 就 很 简单 ， To TensorFlow 库 时 那样 明确 地 
定义 一 些 规则 。 不 过 我 们 可 以 像 使 用 TensorFlow 库 时 那样 ， 统 一 定义 各 个 层 。 改 进 后 的 代 
码 如 下 所 示 。 

















P18 当然 可 以 将 weight_variable() 和 bias_varable() 定义 在 inference() 的 外 部 ,但 是 为 了 更 直观 地 表示 
它们 是 inference() 这 个 “模型 ”的 权重 和 偏 置 ， 所 以 定义 在 函数 内 部 了 。 
p19 本 小 节 中 用 到 的 所 有 代码 可 参考 本 书 随 书 下 载 代码 包 中 的 4/tensorflow/06_mnist_plot_tensorflow.py。 
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n_in = 784 

n_hiddens = [200，2001] 
n_out = 10 

activation = 'relyu' 
p_keep = 


model = Sequential() 

for i input dim in enumerate((C[n in) * mn hiddens)[: 1): 
model.add(Dense(n_hiddens[i], input_dim=input_dim)) 
model.add(Activation(activation)) 


model.add(Dropout(p_keep)) 


model.add(Dense(n_out)) 
model.add(Activation('softmax' )) 








通过 循环 ([n_in] + n_hiddens)[:-1]， 把 进入 输出 层 之 前 的 所 有 层 的 输入 和 输出 的 维度 传 
给 Dense() 函数 。 与 分 别 定义 各 个 层 时 相 比 ， 代 码 整 洁 了 很 多 *”。 

















4.4.1.3 ”了 依 5T 对 TensorFlow 模型 进行 类 封装 
把 各 部 分 的 处 理 封装 到 inference()、loss()、training() 这 3 个 函数 中 后 ， 使 用 
TensorFlow 库 的 开发 变 得 更 容易 了 。 但 是 ， 实 际 的 模型 的 训练 部 分 没有 包含 在 内 ， 所 以 
main 处 理 的 代码 容易 变 得 见长 。 如 果 把 训练 部 分 的 代码 都 整合 到 一 个 类 中 ， 那 么 就 可 以 像 
面 这 段 代码 一 样 ， 用 近似 于 Keras 的 方式 编写 代码 。 











model = DNN() 
model.fit(X_ train, Y_train) 
model.evaluate(X test, Y_ test) 


下 面 让 我 们 来 思考 一 下 如 何 才能 实现 前 面 的 构思 。 类 的 整体 构成 如 下 所 示 。 


class DNN(object): 
def _ init (self): 
# 初始 化 处 理 


def weight_variable(self, shape): 











20 本 小 节 中 用 到 的 所 有 代码 可 参考 本 书 随 书 下 载 代码 包 中 的 4/keras/06_mnist_plot_keras.py。 
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initial = tf.truncated normal(shape, stddev=0.01) 


return tf.Variable(initial) 


def bruasevariable(self shape): 
initial = tf.zeros(shape) 


return tf.Variable(initial) 


def anference(self x, keep prob): 
# 定义 模型 


return y 


qedtlossCselt yt: 
cross_entropy = tf.reduce mean(-tf.reduce sum(t * tf.log(y), 
reduction_indices=[1])) 


return cross_entropy 


def training(self .loss): 
optimizer = tf.train.GradientDescentOptimizer(0.01) 
train_step = optimizer .minimize(1oss) 


return train_step 


defaccuracy(self ay 和 
correct>predictionm = tfequal(tf.aremax(y. 0 1). tf.argmax(t, 1)) 
accuracy tf:reducemean(tf "cast(correct prediction tf float32)) 


nevurnmaceuraey 


demmiue(Cseltt Xtraln Yalin)e 
# 训练 的 处 理 


def evaluate(self, X test, Y_ test): 
# 测试 的 处 理 








loss()、training()、accuracy() 这 3 个 函数 没有 什么 变化 ， 只 是 为 了 变 成 方法 而 增加 了 
self 参数 。 

让 我 们 先 来 思考 一 下 在 模型 的 初始 化 时 应 该 做 些 什 么 。 在 这 个 阶段 确定 模型 的 结构 是 
比较 理想 的 ， 所 以 我 们 要 通过 添加 参数 来 接收 各 层 的 维度 。 此 外 ， 每 层 的 权重 和 偏 置 也 与 
模型 的 结构 有 关 ， 也 在 此 进行 定义 。 
































defm mt selt nmidlens no 


self.n_in = n_in 
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self.n_hiddens = n_hiddens 
self.n out = n_out 
self.weights = [] 


self.biases = [] 


接着 就 可 以 实现 inference() 了 ， 代 码 如 下 所 示 。 


def inference(self x keepaprob). 
# 输入 层 - 隐藏 层 、 隐 藏 层 - 隐藏 层 
for i, n_hidden in enumerate(self.n_hiddens) : 























T= 
input = x 


inputedim "Self .noin 





else: 
input = output 


input_dim = self.n_hiddens[i-1] 


self.weights.append(self.weight_variable([input_dim, n_hidden])) 
self.biases.append(self.bias_variable([n_hidden])) 


h = tf.nn.relu(tf.matmul( 
input, self.weights[=1]) + self.biases[=1]) 
output = tf.nn.dropout(h, keep_prob) 








# 隐藏 层 -输出 层 
self.weights.append(self.weight_variable([self.n_hiddens[-1], self.n_out])) 
self.biases.append(self.bias_variable([self.n_out])) 


y = tf.nn.softmax(tf.matmul( 
output, self.weights[-1]) + self.biases[-1]) 


return y 


以 前 每 层 的 维度 都 从 参数 取得 ， 现 在 可 以 用 self.n_in 等 来 代替 了 。 

接 下 来 是 进行 训练 的 fit()。 我 们 希望 它 的 参数 与 Keras 的 一 样 ， 也 包括 训练 数据 、 移 
代数 、 批 量 的 大 小 。 由 于 这 次 与 dropout 一 起 进行 ， 所 以 还 需要 dropout 概率 的 参数 。 最 终 
完成 的 代码 如 下 所 示 。 基 本 上 都 是 以 前 写 在 main 处 理 中 的 代码 。 














defmimGe(selft eXtraunm Ytalne 
epochs=100, batch_size=100, p_keep=0.5, 
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verbose=1): 
汉 tf.placeholder(tf.float32, shape=[None, self.n_in]) 
电 tf.placeholder(tf.float32, shape=[None, self.n_out]) 
keep_prob = tf.placeholder(tf.float32) 





# 把 用 于 evaluate() 的 值 作为 属性 保存 
self. x = x 
self. t = t 





self. keep prob’= keep prob 


y="self.inference(x, keep® prob) 
lossE= > self loss(y Rt) 
train_step = self.training(1oss) 


accuracy = self.accuracy(y, t) 


init = tf.global variables_initializer() 
sess = tf.Session() 


sess.run(init) 





# 把 用 于 evaluate() 的 值 作为 属性 保存 


self. sess = sess 





N_train = len(X_train) 


n_batches = N_train // batch_ size 


for epoch in range(epochs): 
Xa shutfilie(Xtralin tauny 


for i in range(n_batches): 
start = i * batch_ size 


end = start + batch_ size 


sess.run(trainestep, feed dict={ 
>xalstartenole 
tonyastarmt .eno 
keep_prob: p_keep 
}) 
loss_ = loss.eval(session=sess, feed dict={ 
XX an 
CY adne 
Keepmprnoo 0 
}) 
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accuracy_ = accuracy.eval(session=sess, feed dict={ 
XX tian 
keane 
Keepapiob lo 

3) 

# 将 值 记录 下 来 

self. history[l'loss'].append(loss® ) 


self._history['accuracy'].append(accuracy_) 


if verbose: 
print( epoch:", epoch, 
los'se lossa 


accunacy :aceuracy 





return self .history 


正如 代码 中 的 注释 部 分 写 的 那样 ， 有 些 测试 阶段 用 到 的 变量 在 evaluate() 中 也 会 用 到 ， 
此 需要 把 它们 作为 类 的 属性 保存 在 类 中 。 另 外 , 在 类 中 记录 训练 的 进度 情况 更 便于 训练 后 
的 数据 处 理 ， 因 此 要 定义 self._history。 这 些 都 要 在 _init “代码 的 最 后 统一 定义 。 














denis(selanEnmahnanmiddemsn 丰 OU 
self.n_in 
He 
self. x = None 
self. y = None 
self. t = None, 
self._keep_prob = None 
self._sess = None 
self. _ history = { 
eaceusasy lal 


los's es el 


evaluate() 的 代码 和 以 前 的 基本 相同 ， 用 上 刚才 定义 的 self._sess 等 变量 后 ， 其 代码 如 下 
所 示 。 


def evaluate(self, X test, Y_ test): 
accuracy = self.acecuracy(self .ny Sself et) 


return self.accuracy.eval(session=self._ sess, feed dict={ 
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self. x: X_ test, 

self. t: Y_test, 

self keepapnob ln 
}) 


这 样 就 完成 了 类 的 定义 。 事 先 定义 好 这 个 DNN， 模 型 main 部 分 的 代码 就 可 以 如 下 所 示 。 





model = DNN(n_in=784, 
n_hiddens=[200，200，200]， 
n_out=10 


model.fit(X_ train, Y_train, 
epochs=50, 
batch_size=200， 
p_keep=0.5) 


accuracy = model.evaluate(X_ test, Y_test) 


pnt( aceuracey accunaey 


DNN 可 以 作为 一 个 简洁 的 高 层 API 来 使 用 ”1。 

这 里 只 是 简单 地 堆砌 了 fit()， 其 中 的 人 处理 还 可 以 进一步 切 分 ， 形成 通用 性 更 高 、 更 容 
易 重 复 使 用 的 API。TensorFlow 也 提供 了 这 样 的 高 层 API， 它 们 全 部 在 tf.contrib.learn 模 
块 内 。 不 过 ,为 了 让 读者 在 理解 了 这 些 理论 的 基础 上 ， 能 够 做 到 “把 理论 转化 为 代码 ”“ 在 
数学 表达 式 层面 对 代码 进行 定制 修改 "， 书 中 没有 使 用 tf.contrib.1learn。 这 个 库 人 简单 的 使 
用 方法 整理 在 附录 A3 节 中 ， 供 各 位 参考 。 






































4.4.2 训练 的 可 视 化 


在 前 面 的 学 习 中 ， 我 们 用 多 种 方法 和 技术 分 析 了 实验 结果 ， 但 对 测试 数据 的 定量 评估 

只 用 了 预测 精度 这 一 种 形式 。 男 外 ， 尽 管 对 训练 数据 输出 过 误差 函数 的 值 或 预测 精度 ,但 
a 进度， 至 于 训练 是 如 何 进行 的 ， 我们 只 能 了 解 个 大 概 。 

过 在 有 些 情况 下 ,尤其 是 数据 规模 较 大 时 ， 还 需要 用 验证 数据 对 训练 结果 进行 合适 

ee 对 于 测试 数据 来 说 ,预测 精 度 (在 只 有 1 个 数据 集 时 ) 只 是 1 个 数值 ， 但 对 于 训 

练 数据 或 者 验证 数据 来 说 ， 它 们 需要 评估 每 次 迭代 的 预测 精度 ， 所 以 一 次 要 看 多 个 数值 。 








i 























P21 完整 的 代码 在 随 书 下 载 的 代码 包 中 的 4/tensorflow/99_mnist_mock_contrib_tensorflow.py 中 。 
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我 们 当然 可 以 把 数据 简单 地 排列 在 一 起 来 看 ,但 以 可 视 化 图 表 的 形式 查看 会 更 直观 。 因 此 ， 
我 们 要 在 4.3 节 实 现 的 代码 的 基础 上 增加 下 列 处 理 ， 





@ 使 用 验证 数据 进行 训练 和 预测 
@ 训练 时 的 预测 精度 的 可 视 化 


然后 对 模型 进行 更 有 效 地 评 佑 。 
4.4.2.1 使 用 TensorFlow 的 实现 


我 们 从 准备 训练 数据 、 验 证 数据 、 测 试 数据 开始 做 起 。 之 前 我 们 用 以 下 代码 设置 了 训 
练 数据 和 测试 数据 。 


train_ size = 0.8 


X_ train, X_ test, Y_ train，Y_test =\ 


trainetesto split(X .Ytram®size=tr alne slze) 
如 果 要 用 验证 数据 ， 就 需要 对 训练 数据 进一步 分 割 ， 其 代码 如 下 所 示 。 


N_train = 20000 
N_validation = 4000 


Xan Xteste NV ealn Yteste -NN 


train_test_split(X, Y, train_size=N_train) 


# 把 训练 数据 进一步 分 为 训练 数据 和 验证 数据 
Xx train, X_validation, Y_ train，Y validation = \ 


trainetest split(X train, Y train, test slize=Nivalidation) 


在 模型 训练 的 评估 阶段 使 用 的 数据 也 要 随 之 修改 为 这 里 分 割 出 来 的 验证 数据 ”22。 由 于 每 次 
迭代 都 会 对 验证 数据 的 损失 《〈 误差 函数 的 值 ) 和 预测 精度 进行 评 佑 ， 所 以 模型 训练 部 分 的 














P22 像 这 样 ， 把 训练 用 的 全 部 数据 完全 分 割 为 训练 数据 和 验证 数据 ， 然 后 使 用 同一 份 验证 数据 进行 评估 的 方法 
称 为 hold-out 验证 (hold-out validation )。 与 此 相对 的 ， 先 把 训练 数据 分 成 K 个 数据 集 ， 然 后 将 其 中 1 个 作 
为 验证 数据 ， 其 余 XK- 1 个 数据 集 作 为 训练 数据 进行 实验 的 方法 称 为 K 折 交 叉 验证 ( k-fold cross validation )。 
使 用 K 折 交叉 验证 时 ,会 对 数据 集 的 不 同 组 合 进行 XK 次 训练 和 验证 ， 然 后 把 得 到 的 预测 精度 的 平均 值 作为 
模型 的 性 能 。 虽然 K 折 交 叉 验证 对 模型 泛 化 性 能 的 评估 会 更 严 紧 ,但 是 它 经 常 导致 模型 训练 的 时 间 过 长 ， 
所 以 在 深度 学 习 领 域 一 般 不 用 它 。 
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代码 如 下 所 示 。 


for epoch in range(epochs): 
XY shufftlelCe tarm Ytraln) 


for 1 in range(n batches): 
start = i * batch_ size 


end = start + batch_size 


sesserun(traimnistep feedidrcet=1 
Xx,lstart emg 
ta stam en 
keep_prob: p_keep 

by) 














# 使 用 验证 数据 进行 评估 


val_loss = loss.eval(session=sess, feed dict={ 











x Xvalaidart on 
te valdatone 
keepoprob: 1%.0 
2) 
val_acc = accuracy.eval(session=sess, feed dict={ 
> Mvalidatrone 
tealdatone 
keep_prob: 1.0 
加 











虽然 通过 输出 每 一 次 迭代 训练 的 验证 数据 的 损失 val_loss 和 预测 精度 val_acc 也 可 以 确认 
训练 情况 ， 但 是 为 了 可 视 化 ， 要 把 数据 都 保存 到 列表 中 。 于 是 我 们 需要 事先 定义 




















history = { 
valsllosse .le 


wvalgace al 











这 样 的 列表 ， 然 后 再 把 每 次 迭代 得 到 的 val_loss 和 val_acc 分 别 添加 到 其 中 即 可 。 以 下 代 
码 是 一 个 简单 的 实现 。 


for epoch in range(epochs ) : 
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Xa shutfilie(XyEtralin tan 


for Tin range(n batches): 


sess.run() 


val loss = loss.eval() 


val_acc = accuracy.eval() 














# 记录 验证 数据 的 训练 进度 
history['val_1oss'].append(val_1oss) 





history['val_acc'].append(val_acc) 


下 面 以 图 表 的 形式 来 对 训练 时 记录 的 值 进行 可 视 化 。Python 有 一 个 叫 作 matplotlib 的 
库 ， 用 它 可 以 轻松 绘制 图 表 。 该 库 随 Anaconda 一 起 被 安装 ， 所 以 处 于 随时 可 用 的 状态 。 先 
在 文件 的 开头 添加 下 面 这 行 代 码 。 


import matplotlib.pyplot as plt 





然后 ， 如 果 要 绘制 history['val_acc'] 的 图 表 ， 只 需 以 下 几 行 代码 即 可 实现 。 


plt.rc(C'font'，family='serif') # 设置 字体 
fig = plt.figure() # 准备 图 表 


# 在 图 表 中 描绘 数据 
plt.plot(Crange(epochs)，history['val_acc']，1label='acc'，color='black') 


# 坐标 轴 的 名 称 
psxlabelepochs 
plt.ylabel('validation loss') 


# 显示 / 保存 图 表 
plt. show() 


# plt.savefig('mnist_tensorflow.eps') 


如 上 述 代码 所 示 ， 要 显示 数据 ， 只 需 把 ( 横 轴 和 纵 轴 的 ) 数据 列表 传 给 plt.plot() 即 可 。 
最 后 的 plt.show() 和 plt.savefig() 分 别 是 在 程序 运行 时 显示 图 表 和 将 图 表 保 存 为 图 像 文 
件 的 方法 。 执 行 这 段 代 码 ， 得 到 图 4.11 所 示 的 图 形 。 
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图 4.11 验证 数据 的 预测 精度 的 变化 





从 图 中 可 以 看 出 ， 预 测 精度 在 前 期 是 顺利 上 升 的 ,但 过 一 段 之 后 就 完全 不 能 训练 了 。 
这 个 问题 和 梯度 消失 问题 一 样 ， 都 是 因为 从 softmax 函数 ( sigmoid 函数 ) 传 来 的 梯度 变 得 
过 小 ， 最终 被 当 作 0 来 计算 了 。 为 了 避免 这 个 问题 出 现 ， 对 定义 交叉 信 误 差 函 数 表 达 式 的 
代码 进行 如 下 修改 。 








def loss(y tO: 
Cross_ entropy = \ 
tf.reduce_ mean( 
-tf.reduce_sum( 
IOgGeisclapabyEValuetyAaale1ORATIEODR 
reduction_indices=[1])) 


return cross_entropy 








通过 新 添加 的 tf.clip_by_value() 来 设置 计算 时 要 用 的 下 限 值 (及 上 限 值 )。 将 下 限 值 设 为 
1e-10 等 很 小 的 值 后 ， 既 不 会 对 训练 的 计算 产生 不 好 的 影响 ， 又 可 以 防止 除 以 0 的 问题 出 
现 。 修 改 后 的 结果 如 图 4.12 所 示 。 
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多 4.12 修改 了 误差 函数 的 实现 之 后 的 预测 精度 的 变化 























从 图 中 可 以 看 出 训练 正在 顺利 进行 。 我 们 还 可 以 通过 以 下 代码 让 预测 精度 和 损失 显示 在 同 
一 张 图 中 。 














fig = plt.figure() 


ax_acc = fig.add_subplot(111) # 设置 预测 精度 的 轴 

ax_acc.plot(range(epochs), history['val_acc'], 
label='acc', color='black') 

ax_loss = ax_acc.twinx() # 设置 损失 的 轴 

ax_loss.plot(range(epochs), history['val_loss'], 


label='loss', color='gray') 
plt.xlabel('epochs') 


plt. show() 


# plt.savefig('mnist_tensorflow.eps') 


执行 这 段 代 码 后 得 到 的 图 形 如 图 4.13 所 示 。 
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图 4.13 ”验证 数据 的 损失 和 预测 精度 的 变化 











通过 这 张 图 我 们 就 可 以 知道 ， 训 练 在 开头 取得 一 定 成 果 ， 之 后 预测 精度 会 慢 慢 上 升 
(损失 逐渐 变 小 )， 这 里 就 不 详细 考察 了 。 








4.4.2.2 ”使 用 Keras 的 实现 
Keras 库 的 model.fit() 的 返回 值 中 包含 表示 训练 进度 的 数值 。 如 果 要 包含 验证 数据 一 
起 进行 训练 ， 需 要 像 下 面 这 样 用 到 validation_data=。 








hist ="model.fit(X train,Y train, epochs=epochs, 
batch_size=batch_size, 


validation data=(X_validation, Y_validation)) 


这 里 的 hist 就 会 含有 对 验证 数据 的 损失 和 预测 精度 的 记录 。 
通过 以 下 代码 可 以 确认 val_loss 和 val_acc 的 类 型 是 列表 ， 并 且 列 表 中 有 值 。 

















print(val_loss = hist.history['val_ loss']) 


printi(vallace = hanste nistony vallaceal) 


参照 前 面 用 TensorFlow 编写 的 代码 来 设置 和 训练 模型 ,这 里 编写 的 代码 如 下 所 示 。 


n_in = len(X[0]) # 784 
n_hiddens = [200, 200, 200] 
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n out = len(Y[0]) # 10 
p_keep = 0.5 
activation = "relu' 


model = Sequential() 

fori, input dim in enumerate(([noin)* no hiddens)[: 1 ): 
model.add(Dense(n_hiddens[i], input_dim=input_dim)) 
model.add(Activation(activation)) 


model.add(Dropout(p_keep)) 


model.add(Dense(n_out)) 


model.add(Activation('softmax' )) 


model.compile(loss='categorical_ crossentropy', 
optimizer=SGD(Lr=0.01)， 


metrics=['accuracy']) 





epochs = 50 
batch_size = 200 


hist = model.fit(X train, Y_train, epochs=epochs, 
batch_size=batch_size, 
validation data=(X_validation, Y_validation)) 


绘制 预测 精度 图 形 的 代码 与 前 面 用 TensorFlow 库 时 的 代码 相同 ， 如 下 所 示 。 


valmacee = hs testory Valacenl 


plete tont famaly serie 

fig = plt.figure() 

plt.plot(range(epochs), val acc, label='acc', color='black') 
plt.xlabel('epochs') 

plt. show() 


# plt.savefig('mnist_keras.eps') 


画 出 来 的 图 形 如 图 4.14 所 示 。 从 图 形 中 可 以 看 出 ， 这 次 训练 失败 了 。 这 次 和 前 面 使 用 
TensorFlow 库 时 的 区 别 是 什么 呢 ? 
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图 4.14 一 次 失败 的 训练 











仔细 查看 代码 就 能 发 现 区 别 在 参数 的 初始 化 部 分 。 模 型 结构 本 身 是 相同 的 ， 但 是 用 
TensorFlow 编写 的 代码 中 有 权重 的 初始 化 部 分 的 代码， 


tf.truncated_normal(shape，stddev=0.01) 


而 用 Keras 编写 的 代码 中 却 什 么 都 没有 。 其 实 ， 权 重 的 初始 值 会 影响 训练 能 和 否 顺利 进行 。 
现在 已 经 研究 出 了 多 种 设置 权重 初始 值 的 方法 ,我 们 将 在 下 一 节 详 细 学 习 相 关 知识 。 这 里 
我 们 先 用 Keras 来 实现 之 前 用 TensorFlow 编写 的 代码 中 的 初始 化 处 理 。Keras 的 Dense() 接 
受 kernel_initializer= 参数 ， 用 这 个 参数 可 以 指定 初始 化 处 理 的 函数 ， 实 现 同样 的 效果 。 
具体 代码 如 下 所 示 。 








from keras import backend as K 


def weight_variable(shape): 


return K.truncated normal(shape, stddev=0.01) 


model = Sequential() 


for i, input dim in enumerate(([In in] mihiddens)[: 1]): 
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model.add(Dense(n_hiddens[i], input_dim=input_dim, 
kernel_initializer=weight_variable)) 
model.add(Activation(activation)) 


model.add(Dropout(p_keep)) 


model.add(Dense(n_out, kernel_ initializer=weight_variable)) 
model.add(Activation('softmax' )) 


如 果 需 要 用 到 没有 事先 以 别名 形式 导入 过 的 Keras 模块 ， 可 以 使 用 keras.backend。 在 函数 
weight_variable() 中 用 K.truncated_normal(shape，stddev=0.01) 就 可 以 和 使 用 TensorFlow 
时 一 样 返 回 遵循 标准 差 o = 0.01 的 截断 正 态 分 布 (truncated normal distribution ) 的 随机 
数 。 之 后 通过 设置 Dense(kernel_initializer=weight_variable) 就 可 以 生成 拥有 和 使 用 
TensorFlow 时 一 样 的 初始 值 的 权重 。 试 着 执行 修改 后 的 代码 ， 得 到 如 图 4.15 所 示 的 结果 ， 
可 以 看 出 训练 顺利 完成 了 。 
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图 4.15 ”修改 权重 初始 值 以 后 


男 外 ， 还 可 以 用 keras.initializers.TruncatedNormal() 生成 遵循 截断 正 态 分 布 的 值 。 


from keras.initializers import TruncatedNormal 


model.add(Dense(n out, kernel initializer=TruncatedNormal(stddev=0.01))) 
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这 上段 代码 也 可 以 实现 和 前 面 同样 的 功能 。 这 时 就 不 用 再 定义 weight_variable 了 。 
另外 , 在 Keras 中 可 以 直接 使 用 NumPy 生成 的 随机 数 。 这 时 需要 把 weight_variable() 
的 定义 修改 如 下 。 











def weight_variable(shape): 


return np.random.normal(scale=0.01, size=shape) 











请 注意 这 时 使 用 的 不 再 是 截断 正 态 分 布 ， 而 是 普通 的 正 态 分 布 。 














有 高 级 技术 


4.5.1 数据 的 正则 化 与 权重 的 初始 化 


权重 的 初始 值 会 影响 训练 结果 ， 可 以 从 网 4.14 和 图 4.15 的 结果 中 看 出 这 一 点 。 那 么 
选用 什么 样 的 初始 值 为 好 呢 ? 为 了 更 好 地 解决 权重 问题 ， 我 们 先 考 虑 把 输入 数据 整理 “ 干 
净 ” 的 方法 。 到 目前 为 止 我 们 处 理 的 都 是 MNIST 数据 。 现 在 为 了 能 够 用 同样 的 方法 处 理 
MNIST 之 外 的 数据 ， 我 们 先进 行 预 处 理 ， 把 输入 数据 转换 为 一 定 范围 之 内 的 值 。 最 简单 的 
做 法 就 是 把 范围 限制 在 0 到 1 之 间 。 比 如 MNIST 数据 是 从 0 到 255 之 间 的 RGB 值 ， 所 以 
进行 如 下 处 理 即 可 得 到 目标 范围 之 内 的 值 。 


























XX /255N0 





或 者 像 下 面 这 样 处 理 ， 一 般 的 情况 就 都 可 以 表示 了 。 





X=X/X.max() 


这 种 为 了 便于 处 理 ， 将 数据 值 限定 在 一 定 范围 之 内 的 做 法 叫 作 正则 化 〈normalization )。 男 
外 ,考虑 到 数据 的 分 布 ， 将 数据 的 平均 值 转换 为 0 的 正则 化 是 比较 理想 的 。 下 面 就 是 对 
MNIST 数据 进行 这 种 转换 的 代码 。 








X= X255%0 
X= XxX - X.mean(axis=1).reshape(len(X), 1) 
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如 果 此 时 各 模式 的 数据 分 布 是 对 称 的 *”， 那 么 权重 的 元 素 就 应 该 有 正 有 人 负 。 而 且 既 然 对 称 ， 
那么 正 数 和 负数 应 该 大 约 各 占 一 半 。 所 以 ， 最 开始 我 们 可 以 考虑 让 权重 的 所 有 元 素 都 为 0。 

但 是 ， 如 果实 际 都 用 同一 个 值 进 行 初始 化 ,那么 误差 反 向 传播 时 的 梯度 的 值 就 会 全 部 
相同 ， 权 重 的 值 就 得 不 到 很 好 的 更 新 。 所 以 更 好 的 做 法 是 用 接近 于 0 的 随机 数 进行 初始 化 。 
前 面 之 所 以 用 正 态 分 布 对 权重 进行 初始 化 ， 是 为 了 取得 接近 平均 值 1 = 0 的 随机 数 。 而 且 
标准 差 @ 越 小 ， 生 成 的 值 就 越 接近 于 0， 也 就 越 理 想 。 如 np.random.normal(scale=0.01， 
size=shape) 等 代码 ， 就 是 顺 着 这 个 思路 编写 的 。 

不 过 ， 标 准 差 并 不 是 越 小 就 越 好 。 如 果 初 始 值 过 小 ， 乘 以 权重 系数 后 的 梯度 值 也 会 变 
得 过 小 ， 这 会 导致 训练 无 法 进行 **。 因 此 可 以 想到 的 一 个 做 法 是 选取 服从 标准 差 o = 1.0 的 
标准 正 态 分 布 的 数据 ,然后 乘 以 合适 的 系数 ， 看 看 能 否 生成 好 的 初始 值 。 这 也 就 等 同 于 思 
考 如 何 确定 a * np.random.normal(size=shape) 中 的 a。 这 里 有 一 点 需要 引起 注意 : 输入 的 
维度 越 大 ，( 因为 o = 1.0 ) 生成 的 值 就 越 容易 出 现 偏 差 。 我 们 来 看 一 看 能 否 通 过 权重 的 初 
始 值 来 减少 数据 的 偏差 程度 。 令 输入 为 n 维 向 量 x、 权 重 为 古 ， 激 活 前 的 值 忆 的 各 元 素 的 
值 如 下 所 示 。 





















































pj = 》 wiixi (4.41) 
i=1 


这 时 令 E[:] 为 期 待 值 (平均 值 )、Var[:] 为 方差 .那么 pj 的 方差 如 下 所 示 。 


Var [pj| = Var 





BD oa (4.42) 
= >》Var[wiio] (4.43) 


= {(Ebwa)? Varta * (E[xi;])? Var[w;i] + VarbwalVar[]) (4.44) 





又 由 于 正则 化 后 的 输入 数据 的 E[xi] 为 0， 青 假定 权重 遵循 理想 的 分 布 ， 那么 有 E[wji] = 0， 
因而 式 (4.45) 最 终 变 为 如 下 形式 。 














>23 使 数据 的 平均 值 为 0、 方 差 为 10， 并 且 特 征 之 间 不 相关 的 正则 化 被 称 为 白化 (whitening )。 尤 其 在 图 像 处 理 
领域 ,正则 化 是 一 种 重要 的 数据 预 处 理 方法 。 

激活 函数 ReLU 具有 在 x = 0 附近 梯度 也 不 会 消失 的 特性 ， 所 以 对 它 来 说 ， 反 而 是 标准 差 取 or = 0.01 等 较 小 
的 值 时 训练 效果 更 好 。 

















Pp2 


起 
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Varlpj] = >》 Var[wji]Varlx] (4.45) 
| 


二 nVar[wji]Var[xi] (4.46) 


因此 ， me 需要 让 权重 W 的 各 元 素 的 方差 为 上，。 这 里 令 
4 为 常量 、X 为 概率 变量 ， 则 有 Var[aX] = a?Var[X] 成 立 ， 然 后 回 到 最 初 的 问题 ， 如 何 确定 


a * np.random.normal(size=shape) 中 的 a， 


i (4.47) 





也 就 是 说 ， 


np.sqrt(1.0 / n) * np.random.normal(size=shape) 


就 可 以 了 。 

以 上 就 是 对 权重 进行 初始 化 的 基本 做 法 ， 在 得 到 式 (4.47) 的 过 程 中 我 们 进行 了 多 个 假 
定 。 基 于 不 同 的 假定 ， 人 们 提出 了 多 种 初始 化 的 方法 。 Www 
的 几 个 方法 ,不 过 并 不 会 详细 展开 每 个 方法 的 表达 式 的 推导 过 程 ， 因 为 这 些 内 容 在 参考 文 
献 中 有 详细 说 明 ， 请 参考 书 中 提 到 的 参考 文献 。 











LeCun et al. 1988 文献 [1] 
这 是 使 用 正 态 分 布 或 者 均匀 分 布 进行 初始 化 的 方法 。 使 用 均匀 分 布 时 的 代码 如 下 所 示 。 





np.random.uniform(low=-np.sqrt(1.0 / n), 
high=np.sqrt(1.0 / n), 


size=shape) 














另外 ， 用 Keras 库 开 发 时 可 以 通过 设置 kernel_initializer='lecun_uniform' 的 别名 来 使 
用 它 。 








Glorot and Bengio 2010 文献 [7] 
该 方法 考察 的 也 是 使 用 正 态 分 布 或 者 均匀 分 布 时 的 初始 化 。 使 用 均匀 分 布 时 的 代码 如 
下 所 示 。 
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np.random.uniform(low=-np.sqrt(6.0 / (n_in + n_out)), 
high=np.sqrt(6.0 / (n_in + n_out))， 


size=shape) 


使 用 正 态 分 布 时 的 代码 如 下 所 示 *。 


np.sqrt(3.0 / (n_in + Nn_out)) * np.random.normal(size=shape) 











这 个 初始 化 方法 ， 在 用 TensorFlow 开发 时 可 以 通过 tf.contrib.layers.xavier_initializer 
(uniform=True) 进行 调用 ， 在 用 Keras 开发 时 还 可 以 用 init='glorot_uniform' 和 


init='glorot_normal' 分 别 进行 调用 *”。 


He et al. 2015 文献 [4] 
该 方法 考察 的 是 使 用 ReLU 时 的 初始 化 。 代 码 如 下 所 示 。 























np.sqrt(2.0 / n) * np.random.normal(size=shape) 











用 Keras 库 开 发 时 还 可 以 通过 init='he_normal' 进行 调用 。 








4.5.2 学习 率 的 设置 


以 前 使 用 随机 梯度 下 降 法 进行 模型 训练 时 ， 我 们 设置 的 学 习 率 都 是 0.1 或 0.01 等 事先 
确定 好 的 值 ， 而 且 在 整个 训练 过 程 中 这 个 数值 也 不 变 。 但 是 ， 如 果 学 习 率 的 大 小 直接 关系 
到 能 否 取 得 最 优 解 ， 那 么 我 们 应 该 为 学 习 率 设置 适当 的 值 。 人 们 确实 已 经 提出 了 多 种 设置 
方法 ,在 本 节 我 们 就 依次 来 看 一 下 其 中 具有 代表 性 的 方法 。 























4.5.2.1 动量 

为 了 避免 陷入 局 部 最 优 解 ， 并 且 能 够 高 效 地 得 到 解 ， 理 想 的 学 习 率 是 “初始 较 大 ， 慢 慢 
变 小 ”。 动 量 (momentum ) 不 改变 学 习 率 本 身 的 值 就 可 以 实现 这 理想 的 学 习 率 。 它 会 在 更 新 参 
数 时 使 用 称 为 动量 项 的 部 分 进行 调整 ， 这 相当 于 更 新 学 习 率 。 对 误差 函数 EE， 设 模型 的 参数 为 
6, 巨 的 6 的 梯度 为 ve 已 ， 那 么 在 第 + 次 迭代 中 ,通过 动量 对 参数 进行 更 新 的 表达 式 如 下 所 示 。 















































P25 请 注意 这 里 的 n_in 和 nm_out 指 的 不 是 模型 整体 的 输入 /输出 层 的 维度 ， 而 是 每 一 层 的 输入 和 输出 的 维度 。 
为 了 避免 混乱 ， 也 可 以 把 神经 网 络 看 作 是 电路 ， 把 每 层 的 输入 称 为 扇 入 (fan-in )， 输 出 称 为 扇 出 〈fan-out )。 
P26 在 TensorFlow 中 的 名 称 是 xavier 而 不 是 glorot， 因 为 是 用 文献 [7] 的 作者 Xavier Glorot 的 名 字 来 命名 的 。 
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Ab = -71VoE(9) + yA (4.48) 











这 里 的 yVY64-D 就 是 动量 项 ， 系 数 y(y < 1) 通常 被 设置 为 0.5 或 0.9。 把 式 (4.48) 与 物理 公 
式 进 行 对 照会 呈现 以 下 “空气 阻力 的 表达 式 ” 的 形式 **， 











d20 dg 


这 可 以 说 明 随 着 每 一 次 扩 代 ， 梯 度 在 慢 慢 地 变 小 。 
使 用 TensorFlow 开发 时 ， 可 以 用 tf.train.MomentumOptimizer() 来 实现 动量 。 也 就 是 说 ， 
只 需 在 training() 部 分 把 写 为 GradientDescentOptimizer 的 地 方 修改 为 MomentumOptimizer 
即 可 。 代 码 如 下 所 示 。 

















def training(1oss) : 
optimizer = tf.train.MomentumOptimizer(0.01, 0.9) 
train_step = optimizer.minimize(loss) 


returm trannlstep 


另外 ，Keras 的 56D() 的 参数 中 包含 momentum=， 因 此 使 用 Keras 开发 时 ， 可 以 像 下 面 这 样 编 
写 动量 的 代码 。 








model.compile(1oss='categorical_crossentropy '， 
optimizer=SGD(Lr=0.01，momentum=0.9)， 


metrics=['accuracy ']) 


4.5.2.2 ”Nesterov 动量 
Nesterov[9] 通过 对 式 (4.48) 所 示 的 标准 动量 稍 作 修改 ， 向 其 中 加 入 了 参数 “应 该 朝 哪 
个 方向 前 进 ” 的 部 分 。 式 (4.48) 可 以 分 解 为 以 下 两 个 表达 式 。 

















vt = nVgE(0) + yA (4.50) 
gD = gD) yD (4.51) 


对 其 中 的 动量 进行 修改 后 ， 表 达 式 如 下 所 示 。 


P27 详细 内 容 请 参考 文献 [8]。 
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0 = -7VoE(9+7YVCTD)+TYA6U-D) (4.52) 
g0 = gD) yD (4.53) 


修改 前 后 的 区 别 在 于 E(06+yv?) 部 分 ， 有 了 这 部 分 就 可 以 求 得 下 一 步 要 用 到 的 参数 的 近 


似 值 ， 所 以 能 够 更 高 效 地 设置 学 习 率 并 探索 解 了 。 
使 用 TensorFlow 开发 时 ， 只 需 下 面 一 行 代 码 即 可 实现 它 。 








optimizer = tf.train.Momentumoptimizer(0.01，0.9，use_nesterov=True) 





使 用 Keras 开发 时 的 代码 也 是 如 此 。 


optimizer=SGD(Lr=0.01，momentum=0.9，nesterov=True) 


4.5.2.3 Adagrad 

动量 是 固定 学 习 率 的 值 ， 通 过 动量 项 来 调整 参数 更 新 值 的 方法 ， 而 Adagrad (adaptive 
gradient algorithm) 不 同 ， 它 会 直接 更 新 学 习 率 本 身 的 值 。 为 了 简化 表达 式 ， 首 先进 行 以 下 
定义 。 


























gi :=VoE(Oi) (4.54) 
使 用 这 个 定义 表示 的 Adagrad 的 表达 式 如 下 所 示 。 


OD =60- 一 0 (4.55) 
VG® 十 E 
这 里 的 矩阵 GW 是 对 角 和 矩阵 ，(i,) 元 素 是 到 第 1 次 迭代 为 止 的 4 的 梯度 的 平方 和 ， 表 达 式 
如 下 所 示 。 








1 


Gu = a (4.56) 
0 





另外 ，e 是 为 了 避免 分 母 为 0 的 一 个 微小 项 ， 一 般 会 设 在 1.0 x 10-6~ 1.0 x10 飞 之 间 。 又 因 
为 G 是 对 角 和 抢 阵 ， 所 以 可 以 将 式 (4.55) 整理 如 下 。 





bt0=00 -一 og (4.57) 
VGD + 
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与 动量 相 比 ，Adagrad 的 超 参数 更 少 ， 而 且 它 会 根据 之 前 的 梯度 自动 修正 学 习 率 7， 可 以 说 
是 更 好 用 的 方法 ”2。 
式 (4.55) 和 式 (4.57) 乍 一 看 很 复杂 ， 用 伪 代 码 写 出 来 也 许 会 有 助 于 理解 。 








gL 3 
thetarlil = (learnine rate®/ sqrt(Gril[lil +* "epsilon)) oa 








不 过 ，TensorFlow 和 Keras 都 提供 了 这 个 方法 的 API， 使 用 库 进行 开发 时 不 需要 自己 去 实现 
它 。 使 用 TensorFlow 开发 时 ， 只 需 在 training() 中 如 下 编写 代码 即 可 。 


optimizer = tf.train.AdagradOptimizer(0.01) 
使 用 Keras 开发 时 ， 首 先 在 文件 上 方 把 导入 SGp 替换 为 导入 Adagrad， 
from keras.optimizers import Adagrad 
然后 如 下 编写 代码 即 可 。 


optimizer=Adagrad(1Lr=0.01) 


4.5.2.4 Adadelta 

虽然 Adagrad 可 以 自动 调整 学 习 率 ， 但 对 角 和 矩阵 G 是 梯度 的 累积 平方 和 ， 其 值 是 单 
调 增加 的 。 因 此 ， 从 式 (4.57) 中 也 可 以 看 出 ， 每 次 迭代 训练 过 后 ， 与 梯度 相 乘 的 系数 的 值 
快速 变 小 ， 这 样 就 会 出 现 训练 不 能 继续 进行 的 问题 。 可 以 解决 这 个 问题 的 就 是 参考 文献 
[11] 提出 的 Adadelta 方法 。 

Adadelta 的 基本 思路 不 是 从 第 0 次 迭代 开始 计算 累积 平方 和 和， 而 是 要 把 计算 累积 平方 
和 的 迭代 数量 限制 在 常量 值 w 之 内 。 不 过 从 开发 的 角度 来 看 ， 只 是 同时 存储 w 个 迭代 的 平 
方 和 是 没有 效率 的 做 法 。Adadelta 会 对 到 前 一 个 迭代 为 止 的 全 部 梯度 的 平方 和 求 衰减 平均 
值 ， 并 将 其 作为 递归 公式 进行 计算 。 为 了 让 表达 式 看 起 来 更 简单 ， 把 前 面 写作 g@) 的 地 方 
写 为 g， 于 是 在 第 1 次 迭代 的 梯度 的 平方 ， 即 gr © gi 的 移动 平均 值 E[g*]i 可 以 表示 如 下 。 



































T= 





P28 详细 内 容 请 参考 文献 [10]。 
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E[s?], = pElg’]i1 +(L- p)g? (4.58) 


从 表达 式 可 以 看 出 ， 随 着 和 迭代 的 回溯 ， 梯 度 和 呈 指 数 衰 减 。 前 面 Adagrad 的 式 (4.57) 是 





J 


O01+1 = 0 一 
t+1 t ee 





© gr (4.59) 
这 样 的 。Adadelta 将 其 中 的 Gi 替换 为 梯度 平方 的 衰减 平均 值 E[g*]:， 得 到 如 下 所 示 的 表达 式 。 


0O+1 = 0 -一 一 一 4 (4.00) 
E 


以 上 表达 式 中 VE[g2], + e 部 分 (忽略 e 时 ) 的 形式 与 均 方 根 (root mean square ) 相同 ， 因 此 
把 它 用 RMS[: ] 表示 ， 式 (4.67) 就 可 以 简化 如 下 。 
7 


0+1 = 0 -一 一 一 一 
1+1 1 RMS[sl Sr (4.61) 











文献 [11] 对 式 (4.61) 进行 了 进一步 的 变形 ， 最 终 让 它 不 再 需要 设置 学 习 率 nn。 首 先进 行 
如 下 定义 。 


7 
A0 = 一 一 一 一 一 
RMS[g] gt (4.62) 


根据 式 (4.58)，A6; 的 衰减 平均 值 可 以 表示 如 下 。 
E[Ab65], = pE[AO’]: 1 + (1 — p)AO? (4.63) 
由 于 Ag; 未知， 用 1- 1 的 RMS 作为 以 下 表达 式 的 近似 ， 
RMS[Ab], = VE[AG]: + e (4.64) 
之 后 即 可 得 到 Adadelta 的 表达 式 。 


_RMS[Ab]，- 


Ab = -一 一 一 一 
RMS[s], 


Sr (4.65) 


所 以 最 终 只 需 用 p (以 及 e) 来 设置 Adadelta。 一 般 p 的 值 会 取 0.95。 
虽然 表达 式 比 较 复 杂 ， 但 是 代码 的 实现 与 之 前 一 样 ， 不管 是 用 TensorFlow 还 是 Keras， 
都 可 以 用 它们 的 API 轻松 开发 。 使 用 TensorFlow 时 ， 只 需 执 行 下 面 一 行 代 码 即 可 。 
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optimizer = tf.train.AdadeltaOptimizer(learning_rate=1.0, rho=0.95) 








虽然 式 (4.63) 中 已 经 没有 学 习 率 了 ,但 是 在 代码 中 依然 设置 了 learning_rate=1.0， 这 是 为 
了 设置 941 = 0 + awAb 中 的 g。TensorFlow 会 默认 把 这 个 学 习 率 的 值 a 设 为 0.001*”， 不 过 
从 上 面 的 表达 式 的 推导 过 程 来 看 ， 这 里 设 为 1.0 也 没有 问题 ， 所 以 将 参数 设 为 learning_ 
rate=1.0。 


在 使 用 Keras 开发 时 ， 首先 引 入 相关 的 模块 ， 








from keras.optimizers import Adadelta 





然后 如 下 编写 代码 。Keras 默认 设置 g = 1.0。 


optimizer=Adadelta(rho=0.95) 


4.5.2.5 RMSprop 

RMSprop 和 Adadelta 一 样 ， 都 是 为 了 解决 Adagrad 学 习 率 急剧 减 小 的 问题 而 出 现 的 
方法 。RMSprop 和 Adadelta 是 同一 时 期 出 现 的 方法 ,但 RMSprop 没有 形成 论文 ， 它 是 
Coursera 30 网 站 在 线 课程 的 幻灯 片 讲义 中 提出 来 的 方法 好 1。RMSprop 可 以 说 是 Adadelta 的 
简化 版 ， 具 体 做 法 是 令 式 (4.58) 中 的 p= 0.9， 




















Elg’]: = 0.9E[8 ]，-1 + 0.187 (4.66) 


然后 用 和 式 (4.60) 一 样 的 表达 式 来 更 新 参数 。 





r+1 = 01 — -一 4 (4.67) 
Elg’li+e 


一 般 把 学 习 率 有 设 为 0.001 等 较 小 的 值 。 
使 用 TensorFlow 实现 时 ， 使 用 它 的 RMsPropoptimizer() 来 编写 如 下 代码 。 


P29 请 参考 https://www.tensorflow.org/api_docs/python/tf/train/AdadeltaOptimizer。 
P30 https:/www.coursera.org/ 


P31 幻灯 片 可 以 从 http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf 上 获取 。 
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optimizer = tf.train.RMSPropOptimizer(0.001) 


而 使 用 Keras 库 时 的 做 法 和 前 面 一 样 ， 代 码 如 下 所 示 。 








from keras.optimizers import RMSprop 


optimizer=RMSprop(Lr=0.001) 


4.5.2.6 Adam 

Adadelta 和 RMSprop 都 保留 了 vi := E[g?]: (到 前 一 次 迭代 1 一 1 为止 的 平方 梯度 的 移动 
平均 值 ) 的 指数 衰减 平均 值 ， 而 Adam ( adaptive moment estimation ) 在 此 基础 上 ， 对 参数 
更 新 表达 式 时 使 用 的 简单 梯度 的 移动 平均 值 mw := Elg]i 也 进行 了 指数 衰减 。mz 和 vi 表达 式 
如 下 所 示 。 





mr = Bim t+ (1 = Bi)gr (4.68) 
vi = Bovit +(1 -Bp)e? (4.69) 





这 里 的 B1, B62 € [0,1) 是 超 参数 ， 用 于 调整 移动 平均 值 的 ( 指数 ) 衰减 率 。m 和 vi 分 别 相当 
于 梯度 的 一 阶 矩 (平均 )、 二 阶 矩 (离散 ) 的 估计 值 。 

mz 和 vi 这 两 个 移动 平均 值 痢 是 有 偏差 的 动量 ， 所 以 我 们 需要 求 出 填补 这 个 偏差 (使 偏 
差 为 0) 的 估计 值 。 这 里 用 vo = 0 来 初始 化 ,根据 式 (4.69)， 可 以 得 到 以 下 表达 式 。 








w=(1-p) 2 BY 8? (4.70) 


i=1 





我 们 现在 想 知道 二 阶 矩 vi 的 移动 平均 值 Erw] 和 真正 的 二 阶 和 矩 E[g”] 之 间 的 关系 ， 所 以 从 式 
(4.70) 开始 推导 ， 得 到 下 列表 达 式 。 


Elvi] = E 





GD) a (4.71) 


i=1 


els?| (1-pB) 》 BY + (4.72) 
i=] 


本 els?| ‘(1B)+e (4.73) 
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这 里 如 果 将 超 参 数 的 值 设 为 可 以 近似 于 “ = 0 时 的 值 *Y， 即 可 得 到 以 下 (没有 偏差 的 ) 佑 
计 值 。 








福生 局 (4.74) 
对 m 进行 同样 的 计算 ， 可 以 得 到 以 下 表达 式 。 
届 = (4.75) 
汇总 后 得 到 参数 的 更 新 表达 式 ， 如 下 所 示 。 
91 01 一 (4.76) 





虽然 Adam 的 表达 式 也 很 复杂 ， 但 最 终 的 算法 却 相 对 简单 。 伪 代码 如 下 所 示 。 


# 初始 化 
m= 0 
v= 0 





ll 昭 


# 重复 
m betalne mr betal) ee 
v="beta2* Vr beta2) "gop 
muhate ml betall ey) 
vahat®="Vv7/ (0 betazZ * tt) 


theta -= learning rate * m hat / (sqrt(v_hat) + epsilon) 
另外 ,引入 以 下 由 学 习 率 w 得 到 的 gq,， 可 以 更 高 效 地 进行 训练 “3” 了。 这 里 不 进行 具体 计算 。 


1-p 


= 4.77 
TF (477) 


Qr 二 (4 


这 时 的 伪 代 码 如 下 所 示 。 


0。 因 此 ， 一般 都 设置 为 Bl = 0.9、B2> = 0.999。 
P33 详细 内 容 请 参考 文献 [12]。 
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# 初始 化 
m= 0 
v= 0 


# 重复 

learninmgurateti = learnmincuarate * sqrt(1 = beta2 ** Tt) (1 betali xx ty) 
ma=ubetalx me Cl = betal) xc 

VvV=beta2*V (1 Deta2) pe 


theta = Jearningaratert* m/saqrte(v) + epsilon) 











如 果 使 用 库 进 行 开 发 ， 那 么 使 用 TensorFlow 时 的 写法 如 下 所 示 。 


optimizer = tf.train.AdamOptimizer(learning_rate=0.001, 
beta1=0.9， 
beta2=0.999) 





使 用 Keras 时 的 写法 如 下 所 示 。 


from keras.optimizers import Adam 


optimizer=Adam(1lr=0.001, beta_1=0.9, beta_2=0.999) 


4.5.3 早 停 } 


我 们 已 经 了 解 了 设置 高 效 学 习 率 的 方法 ,但 是 关于 训练 轮 数 ( 即 迭 代数 )， 目 前 为 止 我 
们 用 的 都 是 事先 决定 好 的 值 。 虽 然 训练 轮 数 越 多 ， 训 练 结 果 和 训练 数据 之 间 的 误差 就 越 小 ， 
但 是 也 会 招来 过 拟 合 的 问题 ， 进 而 降低 模型 的 泛 化 能 力 。 图 4.16 展示 了 实际 进行 迭代 300 
次 的 实验 时 ， 和 针对 验证 数据 的 误差 的 变化 情况 。 从 图 中 可 以 看 出 ,误差 一 开始 下 降 得 很 顺 
利 ， 然 而 到 后 面 却 变 大 (过 拟 合 ) 了 。 
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图 4.16 针对 验证 数据 的 误差 变化 








可 以 解决 这 个 问题 的 方法 就 是 早 停 法 (early stopping )。 这 个 方法 非常 简单 ， 就 是 “如 
果 与 前 一 次 迭代 相 比 误差 增加 了 ， 就 停止 训练 "， 所 以 它 的 实现 也 很 简单 。 具 体 的 做 法 是 在 
每 次 迭代 的 最 后 插入 早 停 法 的 检查 。 伪 代码 如 下 所 示 。 





出 





for epoch in range(epochs ) : 


loss = model.train()['loss'] 


if early_stopping(1oss): 


break 








但 这 并 不 是 说 只 要 和 上 一 轮 迭 代 的 误差 进行 比较 就 好 。 从 图 4.16 可 以 看 出 ， 每 一 轮 的 误差 
都 会 上 下 浮动 。 这 是 在 某 些 情况 下 ， 尤 其 是 使 用 了 dropout 时 ， 还 存在 没有 进行 训练 的 神经 
元 的 缘故 。 所 以 理想 的 做 法 是 “在 一 定 的 迭代 数 内 ， 如 果 误 差 一 直 增 加 就 停止 训练 ”。 

接 下 来 让 我 们 来 实现 它 。 使 用 TensorFlow 库 时 我 们 必须 自行 实现 早 停 法 **, 但 这 并 不 
难 。 下 面 的 Earlystopping 类 就 是 实现 Early Stopping 的 整体 框架 。 















































class EarlyStopping() : 
def ”init (self, patience=0, Verbose=0) 

















P34 不 过 ,可 以 使 用 tf.contrib.learn 中 的 tf.contrib.learn.monitors.ValidationMonitor() 来 进行 早 停 
法 的 应 用 。 
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seli stepe 0 
Selt losse = TloamG nt 
self.patience = patience 


self.verbose = verbose 


def validate(self, loss): 
ofS eloss elosse 
self.e step +=°1 
ifrself. step > self.patience: 
if self.verbose: 
print('early stopping') 
mewunnal ue 
else: 


self._step = 0 





self. loss = loss 


return False 





这 里 的 patience 是 用 来 设置 “查看 过 去 多 少 轮 迭 代 的 误差 ”的 值 。 在 训练 之 前 使 用 以 下 代 
但 生成 EarlyStopping 的 实例 ， 


early_stopping = EarlyStopping(patience=10, verbose=1) 


然后 像 下 面 这 段 代 码 一 样 ， 在 最 后 插入 early_stopping.validate()， 








for epoch in range(epochs): 
for Tn range(n batches)e 


sess:run(trainstep, feed dict={}) 
val loss = loss.eval(session=sess, feed dict={}) 


if early_stopping.validate(val_ loss): 
break 


代码 就 支持 早 停 法 了 。 
而 Keras 库 中 提供 了 早 停 法 。 


水 
证 








from keras.callbacks import EarlyStopping 
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Keras 在 每 一 轮 迭 代 的 模型 训练 之 后 都 会 回调 keras .callbacks 所 指定 的 函数 。 在 模型 训练 
前 进行 如 下 定义 ， 


early_stopping = EarlyStopping(monitor='val_loss', patience=10, verbose=1) 


然后 像 下 面 这 段 代 人 码 一 样 设置 callbacks=[early_stopping]， 





hist = model.fit(X_train, Y_train, epochs=epochs, 
batch_size=batch_size, 
validation data=(X_validation, Y_validation), 


callbacks=[early_stopping]) 


这 样 就 可 以 让 代码 支持 早 停 法 了 。 如 图 4.17 所 示 ， 在 运行 的 途中 训练 就 终止 了 。 
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图 4.17 使 用 早 停 法 终止 训练 


4.5.4 Batch Normalization 

















我 们 已 经 进行 过 数据 集 的 正则 化 ， 而 Batch Normalization 则 是 分 小 批量 进行 正则 化 的 
方法 。 在 数据 的 预 处 理 阶段 ， 进 行 数据 集 的 正则 化 (白化) 以 及 在 权重 的 初始 化 上 下 功夫 
确实 容易 让 训练 进行 得 更 好 ， 但 由 于 训练 时 的 网 络 内 部 不 平衡 ， 可 以 说 这 些 方法 带 来 的 效 
果 是 有 限 的 。 针 对 这 个 问题 ，Batch Normalization 会 对 每 个 在 训练 中 使 用 的 小 批量 数据 分 别 
进行 正则 化 ， 所 以 我 们 可 以 期 待 它 能 带 来 让 整体 训练 更 稳定 的 效果 。 
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下 面 就 来 看 看 它 的 具体 做 法 。 首 先 , 假设 有 由 m 个 数据 组 成 的 小 批量 8 = {x1, Xx2,…… ,Xm}， 
小 批量 的 平均 值 yg 以 及 gz 的 表达 式 如 下 所 示 。 


1 m 

HB = a (4.78) 
1 m 

2 a 

0 = 一 2 Hg) (4.79) 


人 (4.80) 
CE +e 
yi = yfi+B (4.81) 








这 里 的 y 和 B66 都 是 模型 的 参数 。 式 (4.81) 的 输出 {y1,y2,… ,ym} 就 是 Batch Normalization 的 











使 用 Batch Normalization 进行 深度 学 习 时 ， 需 要 对 误差 函数 E 分 别 求 模型 的 参数 y、B 
以 及 用 于 传 给 前 一 层 的 xi 的 梯度 。 求 得 这 些 数据 的 表达 式 如 下 所 示 。 








0E OE Oy 
ee 2 2 (4.82) 
m FE _ 
二 oi 
2 (4.83) 
OE a OF Oy 
0 4.84 
38 = 2a 8 3 
3 (4.85) 
i oy: 
OE dE0ft; dE do0% OE Onusg 
= 4.86 
天 ”防卫 0 Ox ON8 On 0 
区 oF | 1 了 oF | 2(xi 一 HB) oF | 1 (4.87) 


Pr 2 
0 jo2 +e 00F m Ous m 
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这 里 的 站 是 反 向 传播 的 误差 ， 所 以 是 已 知 的 。 而 其 他 的 梯度 可 以 如 下 求 得 。 























OE _ OE dy: 
= ee (4.88) 
oF 
- 只.y (4.89) 
OE a OE OF; 
ee 4. 
00% 2 fi 6003 a 
OE -1 3 
xus):— (os+te) (4.91) 
2 0 2 ( ) 
0E 0E 0f: 9E 00% 
sd 4.92 
Ous re Ok; Ons 00% Ous , ) 
OE 一 1 OE -200 一 Hi 
D3 0 人 二 As) (4.93) 
i VoS+te I Qo 的 


可 以 看 出 所 有 的 梯度 都 可 以 用 误差 反 向 传播 法 进行 最 优化 * 5。 
另外 , 由 于 Batch Normalization 是 对 小 批量 数据 进行 正则 化 的 方法 ， 所 以 把 前 面 一 直 
使 用 的 层 的 激活 表达 式 




















h= f(Wx+b) (4.94) 
做 一 下 变形 ， 将 相当 于 式 (4.81) 的 处 理 写作 BNyg(xi)， 那么 层 的 激活 表达 式 就 如 下 所 示 ， 


h = f(BNyg(Wx)) (4.95) 








就 不 再 需要 考虑 偏 置 了 。 除 此 之 外 ， 参 考 文献 [13] 还 列举 了 





@ 即使 学 习 率 很 大 ， 训 练 效果 也 很 好 
@ 即使 不 使 用 dropout， 泛 化 能 力也 很 强 


等 Batch Normalization 的 各 种 优点 。 
那么 ， 下 面 来 看 一 下 Batch Normalization 的 实现 。TensorFlow 提供 了 名 为 tf.nn.batch_ 





P35 严 紧 地 说 ,目前 为 止 所 考虑 的 xz、 知 、yi、ks8、08 都 是 向 量 ， 表 达 式 中 必须 要 写 上 @ 等 符号 ， 但 是 为 了 让 
表达 式 更 简洁 ， 本 书 省 略 了 这 些 符 号 。 把 它们 想 成 是 对 向 量 的 各 元 素 进行 的 计算 ， 这 些 表 达 式 都 成 立 。 
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normalization() 的 API， 不 过 Batch Normalization 的 实现 很 简单 ， 所 以 我 们 不 使 用 这 个 


APL， 
所 示 。 


def 


jok 





尝试 自己 来 实现 它 。 正 则 化 处 理 要 在 激活 之 前 进行 ， 所 以 代码 实现 的 大 体 流程 如 下 


batch_normalization(shape, x): 
# Batch Normalization 的 处 理 


i, n_hidden in enumerate(n_hiddens): 

W = weight_variable([input_dim, n_hidden]) 
u = tf.matmul(input, W) 

h = batch normalization([n_hidden], u) 


output = tf.nn.relu(h) 


在 这 个 batch_normalization() 之 中 编写 相当 于 式 (4.81) 的 处 理 即 可 ， 实 际 的 代码 如 下 所 示 。 


def 




















batch_normalization(shape, x): 

eps = 1e-8 

beta = tf.Variable(tf.zeros(shape)) 

gamma = tf.Variable(tf.ones(shape) 

mean, var = tf.nn.moments(x, [0]) 

return gamma * "(x = mean) /tf.sqrt(var + Yeps) beta 


通过 tf.nn.moments() 计算 平均 值 和 方差 。 另 外 “隐藏 层 -输出 层 ” 沿 用 softmax 函数 ， 最 


终 的 inference() 整体 的 代码 如 下 所 示 。 


def 


inference(x，n_in，n_hiddens，n_out): 
def weight_variable(shape): 
initial = np.sqrt(2.0 / shape[l0]) * tf.truncated normal(shape) 


return tf.Variable(initial) 


def bias_variable(shape) : 
initial = tf.zeros(shape) 


return tf.Variable(initial) 


def batch_ normalization(shape, x): 
eps = 1e-8 
beta = tf.Variable(tf.zeros(shape)) 
gamma = tf.Variable(tf.ones(shape)) 
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mean, var = tf.nn.moments(x, [0]) 


return gamma * (x - mean) / tf.sqrt(var + eps) + beta 




















# 输入 层 - 隐藏 层 、 隐 藏 层 - 隐藏 层 
for i, n_hidden in enumerate(n_hiddens): 





if i == 
npute x 
input_dim = n_in 
else: 
input = output 
input_dim = n_hiddens[i-1] 


W = weight_variable([input_dim, n_hidden]) 
u = tf.matmul(input, W) 
h = batch _ normalization([n_hidden], u) 


output = tf.nn.relu(h) 


# 隐藏 层 - 输出 层 

W_out = weight_variable([n_hiddens[-1], n_out]) 
b_out = bias_variable([n_ out]) 

y = tf.nn.softmax(tf.matmul(output, W_out) + b_out) 


ebunmy 


使 用 Keras 实现 的 代码 也 许 更 容易 让 人 理解 模型 的 要 领 。 首 先导 入 BatchNormalization， 





from keras.layers.normalization import BatchNormalization 




















TT 





然后 像 下 面 这 样 ， 通 过 在 Dense() 和 Activation() 之 间 添 加 BatchNormalization() 的 方式 
来 支持 Batch Normalization。 


nmodel = Sequential() 
for i, input dim in enumerate(([n in] * nihiddens)[:=1]): 
model.add(Dense(n_hiddens[i], input_dim=input_dim, 
init=weight_variable)) 
model.add(BatchNormalization()) 
model.add(Activation(activation)) 


model.add(Dense(n_out, init=weight_variable)) 
model.add(Activation('softmax' )) 
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[| 小 结 








在 本 章 我 们 学 习 了 深度 学 习 的 基础 知识 及 其 应 用 。 神 经 网 络 的 层 变 深 之 后 ， 会 出 
现 无 法 顺利 进行 训练 的 问题 但 是 通过 下 面 这 些 方法 ,我 们 解决 了 这 个 问题 。 



































激活 函数 
dropout 
权重 的 初始 化 
学 习 率 的 设置 
早 停 法 


Batch Normalization 





深度 学 习 基 本 上 就 是 这 一 个 个 技术 的 累积 。 如 果 使 用 TensorFlow 和 Keras 库 ， 就 可 以 
轻松 尝试 各 种 方法 ， 也 就 更 容易 出 成 果 。 

到 本 章 为 止 ， 我们 处 理 的 都 是 玩具 问题 的 数据 或 MNIST (图像 ) 等 侧重 于 某 “ 一 
点 ”的 数据 。 而 在 现实 生活 中 ， 比 起 这 种 侧重 于 某 “ 一 点 ”的 数据 ， 我 们 接触 更 多 的 
是 有 了 时 间 序 列 才 有 意义 的 数据 。 但 是 普通 的 神经 网 络 模型 不 能 训练 时 间 序 列 数据 ， 
所 以 在 下 一 章 ， 我们 去 看 一 看 如 何 让 神经 网 络 支 持 时 间 序列 数据 。 
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本 章 我 们 来 看 一 下 如 何 处 理 用 普通 深度 学 习 模 型 处 理 不 好 的 时 间 序 列 数 据 。 专 门 用 于 
处 理 时 间 序 列 数据 的 模型 称 为 循环 神经 网 络 (Recurrent Neural Network，RNN )。 在 本 章 中 ， 
我 们 将 探讨 这 个 引入 了 “时 间 ” 概 念 的 神经 网 络 到 底 是 个 什么 样 的 模型 ， 以 及 如 何 让 这 样 
的 模型 进行 训练 。 尤 其 是 本 章 将 要 介绍 的 LSTM 算法 和 GRU 算法 ， 对 于 时 间 序 列 数 据 的 分 
析 来 说 它们 不 可 或 缺 ， 请 务必 理解 透彻 。 


基本 概念 


5.1.1 时间 序列 数据 


到 目前 为 止 , 我 们 考虑 的 (图像 等 ) 数据 都 是 把 1 个 向 量 xm 作为 1 个 输入 数据 来 处 
理 的 。 与 之 相 比 ， 时 间 序 列 数据 则 是 把 [x(1),… ,xz(D……,x(D)] 这 样 的 了 个 数据 作为 1 个 
输入 数据 集合 ， 然 后 对 多 个 这 样 的 数据 集合 进行 处 理 的 。 例 如 根据 日 本 1 月 到 6 月 的 降雨 
量 来 预测 7 月 的 降雨 量 时 ， 如 果 手 头 有 从 2001 年 到 2016 年 的 数据 ， 那 么 就 是 使 用 16 个 
7 =6 的 时 间 序 列 数据 来 进行 预测 。 

时 间 序 列 数据 只 是 一 个 统称 ， 其 种 类 有 很 多 。 除 了 刚刚 举 的 日 本 降雨 量 的 例子 ， 现 实 
社会 中 还 有 电车 的 乘客 数量 、 汽 车 的 芝 驶 数据 、 商 店 的 销售 额 、 股 价 和 外 汇 牌价 等 大 量 的 
时 间 序 列 数据 。 另 外 ， 书 中 的 这 些 文字 也 是 时 间 序 列 数据 ， 因 为 它们 的 排列 次 序 都 是 有 意 
义 的 。 循 环 神经 网 络 通过 对 这 些 排列 次 序 上 有 ( 或 看 起 来 有 ) 规律 的 数据 进行 训练 ， 就 可 
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以 在 处 理 未 知 的 时 间 序 列 数据 时 ， 对 其 未 来 的 状态 进行 预测 。 
sin 波 就 是 一 种 简单 的 时 间 序 列 数 据 。 对 于 时 刻 # 有 下 面 的 ,AD 函数 。 





27 
一 1 


1] (t = 1,... ,27) 


f(1) = Sin | 


函数 图 像 如 图 5.1 所 示 “!， 其 中 了 表示 波 的 周期 。 首 先 我 们 来 考虑 一 个 玩具 问题 : 


波 能 否 使 用 循环 神经 网 络 来 预测 。 

















0 T 27 


图 5.1 sin 波 的 图 像 








(3.1) 


这 个 sin 


如 果 直 接 就 这 样 预 测 ， 那 么 用 来 进行 预测 的 就 会 是 一 些 遵循 真实 分 布 的 数据 ， 所 以 我 











们 考虑 加 入 了 噪声 4 的 sn 波 ， 如 下 所 示 。 
f(1) = sin (到 + 0.03u 


u ~ U(-1.0, 1.0) 


(5:2) 


(5:3) 


这 里 令 U(a,b) 表示 从 a 到 4b 的 均匀 分 布 。 图 5.2 表示 了 式 (5.2) 所 代表 的 加 入 了 噪声 的 sn 波 。 


Pp1 实现 时 ， 从 +t = 0 开始 赋值 。 
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0.5r 


0.0 


一 信和 上 








0 aT 


图 5.2 加 入 了 噪声 的 sin 波 图 像 























sin 波 本 身 是 简单 的 时 间 序 列 数 据 ， 但 它 表示 的 其 实 是 声音 。 肉 眼 不 可 见 的 声音 呈 波 
形 ， 所 以 称 为 “声波 ”"。 人 们 通过 喜 膜 捕获 声波 的 振动 来 识别 声音 。 有 规律 的 式 (5.1) 表示 
没有 杂音 的 纯净 的 声音 ， 在 其 基础 上 加 入 了 噪声 的 式 (5.2) 则 表示 混 有 杂音 的 声音 汪 。 如 果 
能 用 循环 神经 网 络 训练 sin 波 ， 那么 就 可 以 考虑 把 这 项 技术 应 用 在 语音 识别 和 语音 分 析 上 
了 。 另 外 ， 如 果 能 够 从 混 有 噪声 的 sn 波 中 识别 出 真正 的 sn 波 ， 那 就 说 明 循环 神经 网 络 能 
够 实现 相当 于 去 除 噪声 的 处 理 。 所 以 ,虽然 我 们 前 面 说 预测 sin 波 是 玩具 问题 ， 程 序 比较 
简单 ， 但 这 个 问题 的 解决 方案 也 是 可 以 应 用 于 现实 生活 当中 的 。 









































5.1.2 过 去 的 隐藏 层 


预测 时 间 序 列 数据 ， 也 就 是 向 神经 网 络 中 引入 时 间 概 念 时 ， 必 须 在 模型 中 保存 过 去 的 
状态 。 由 于 我 们 必须 掌握 过 去 对 现在 〈 肉眼 看 不 见 ) 的 影响 ， 所 以 需要 定义 “过 去 的 ” 隐 
藏 层 。 表 达 这 一 思路 的 最 简单 的 图 形 模型 如 图 5.3 所 示 。 层 本 身 由 “输入 层 - 隐藏 层 - 输 
出 层 ” 组 成 ， 与 一 般 的 神经 网 络 没什么 区 别 。 但 是 ， 除 了 时 刻 1 的 输入 x(?) 之 外 ， 还 要 保 
存 时 刻 !- 1 的 隐藏 层 的 值 h(1 - 1)， 并 将 该 值 传 给 时 刻 1 的 隐藏 层 。 这 一 点 与 之 前 我 们 学 
习 的 神经 网 络 有 很 大 不 同 。 由 于 需要 将 ( 现在) 时 刻 1 的 状态 保存 下 来 ,并 作为 (下 一 时 
刻 )t-1 的 状态 反馈 给 (下 一 时 刻 的 ) 隐藏 屋 ， 所 以 过 去 的 隐藏 层 的 值 h(t - 1) 递归 地 反 
映 了 过 去 所 有 的 状态 。 这 就 是 称 引 入 了 时 间 概 念 的 神经 网 络 为 循环 ( 或 递归 ) 神经 网 络 的 


























2 不 含 噪声 和 含有 噪声 的 sn 波 的 音频 文件 可 参考 随 书 下 载 的 代码 包 中 的 5/sin.mp3 和 5/sin_noise.mp3。 
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原因 。 








EN 
> 
六 


Col 


隐藏 
h(t) 


输出 层 


y(1) 























图 5.3 增加 了 过 去 的 隐藏 层 的 神经 网 络 





虽然 加 入 了 过 去 的 隐藏 层 ， 但 是 模型 输出 的 表达 式 并 没有 变 得 多 难 。 下 面 简单 地 写 一 
下 表达 式 ， 首 先是 隐藏 层 的 表达 式 。 





h(t)= f(Ux(t) + Wh(t — 1)+5) (5.4) 

















然后 是 输出 层 的 表达 式 。 


y(D) = 8(Vh() + e) (5.5) 























这 里 的 A(:)、g(:) 是 激活 函数 ,bp、c 是 偏 置 向 量 。 除 了 隐藏 层 的 表达 式 中 含有 从 过 去 正 问 
传播 的 Wh(t - 1) 之 外 ,循环 神经 网 络 与 一 般 的 神经 网 络 没 有 区 别 ， 所 以 各 模型 的 参数 应 该 


Pp3 


与 此 相对 ， 本 章 之 前 我 们 所 探讨 的 、 从 输入 到 输出 都 是 


network )。 


和 方向 的 网 络 称 为 前 馈 神 经 网 络 (feedforward neural 
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也 可 以 用 反问 传播 算法 进行 最 优化 


。 令 误差 函数 为 E := E(U,V,W,b,c)， 我 们 来 考虑 一 下 


它 对 各 个 参数 的 梯度 。 与 前 面 的 做 法 一 样 ， 首 先 将 隐藏 层 、 输 出 层 在 激活 之 前 的 值 定义 为 


如 下 所 示 的 p(t?)、gq(?)。 


p(t) 
q(1) 





:= Ux() + Wh(t—1)+b (5.6) 
:= Vh() +e G.7) 


于 是 ， 可 以 对 隐藏 层 、 输 出 层 的 误差 项 ， 

















en(t) := 了 (5.8) 
eol1) := 了 (5.9) 
求 得 如 下 所 示 的 表达 式 。 

和 -六 加 -wo a 
-六 on a 
各 -六 oom a 
和 匣 ? 各 -0 re 
0 (5.14) 


dc aq(D) ”ac 


这 样 一 来 ,我 们 只 需 考虑 式 (5.8) 和 


I 式 (5.9) 的 误差 项 即 可 。 即 使 添加 了 过 去 的 隐藏 层 这 一 





概念 ， 对 模型 进行 最 优化 的 做 法 也 是 不 变 的 。 


不 过 对 于 误差 函数 一 一 尤其 是 想 要 预测 sin 波 时 











还 是 需要 稍 加 注意 的 。 我 们 


之 前 使 用 交叉 炉 误 差 函 数 作为 误差 函数 ， 它 适用 于 输出 层 的 激活 函数 g(. ) 为 softmax 函 
数 (或 sigmoid 函数 ) 的 情况 ， 而 在 预测 sn 波 时 ， 输 出 不 再 是 概率 而 是 其 值 本 号 ， 所 以 令 
8(x) =x， 也 就 是 让 式 (5.5) 变 为 线性 激活 的 表达 式 。 
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y(t) = Vh(t) +e (5.15) 





这 种 情况 下 的 误差 了 水 数 我 们 必须 要 考虑 ， 不 过 也 没 必要 想 得 太 复杂 。 只 要 误差 函数 能 
模型 的 预测 值 y() 与 正确 值 tbD 之 间 的 最 小 误差 即 可 ， 例 如 下 面 的 平方 误差 函数 a 
error function ) 就 能 满足 要 求 中， 好 





1 
:= 了 2 .| lp 一 ADIP (5.16) 


5.1.3 ”基于 时 间 的 反 向 传播 算法 


在 求 循环 神经 网 络 的 误差 时 ， 有 一 点 必须 要 注意 。 在 一 般 的 神经 网 络 中 ， 如 果 以 平方 
误差 函数 作为 误差 函数 ， 那 么 误差 en(1)、eo(?) 与 式 (3.101)、 式 (3.102) 一 样 ， 如 下 所 示 。 


en(t) = f'(p(D)) OV el?) (5.17) 
eolt) = g'(q(t)) © (y(t)—t()) (5.18) 


这 些 表 达 式 本 身 没 有 问题 ， 但 是 由 于 循环 神经 网 络 在 正 向 传播 时 考虑 了 时 刻 !- !1 的 隐藏 层 
的 输出 h(t 一 JJ， 所 以 在 反 向 传播 时 也 要 考虑 !- 1 的 误差 。 

将 循环 神经 网 络 按照 时 间 轴 展开 也 许 就 更 容易 理解 了 。 比 如 图 5.4 是 到 时 刻 上 - 2 的 
输出 x(t 一 2) 为 止 的 情况 ,误差 en(?) 反 向 传播 到 en(t -1)，en(t =- 1) 再 进一步 反 向 传播 到 
en -2)。 就 像 这 样 ， 与 正 向 传播 时 要 用 h(t - 1) 的 递归 表达 式 来 表示 h(1) 一 样 ， 在 反 向 传 
播 时 也 要 用 en(1) 来 表示 en(t - D)。 由 于 此 时 误差 是 回溯 时 间 反 向 传播 的 ， 所 以 这 叫 作 基 于 
时 间 的 反 向 传播 算法 ( Backpropagation Through Time )， 缩 写 为 BPTT。 

既然 这 个 算法 叫 作 基于 时 间 的 反 向 传播 算法 ， 那 么 我 们 应 该 考虑 的 就 是 如 何 用 enQ?) 的 
表达 式 来 表示 en(t -1)。 时 刻 1--1 的 误差 如 下 所 示 。 



































oF 


on 1) = p01) 





(5.19) 





PP4 更 严谨 地 说 ， 式 (5.16) 应 该 如 下 所 示 。 





村 
>》 lyn) -tn DP 


1 之 
已 = 本 >， 


即使 等 式 两 边 除 以 N 和 了 也 不 会 改变 最 优 和解， 所 以 如 果 把 除 以 X 和 了 之 后 的 值 作 为 已 ， 那 么 就 可 以 把 五 看 作 
均 方 误差 函数 (mean squared error function ) 了 。 


从 这 种 做 法 也 可 以 看 出 ， 之 前 使 用 交叉 灶 误 差 国 数 的 模型 其 实 也 可 以 使 用 平方 ( 均 方 ) 误差 函数 。 
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Cn 


3.1 
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输入 层 隐藏 层 输出 层 
x(1) h(t) y(71) 
一 一 | O OD 全 | 一 
O ~O > 
oO O | 一 一 

































































O 〇 


(过 去 的 ) 
隐藏 层 
h(t — 3) 














图 5.4 回溯 时 间 展 开 的 神经 网 络 





为 了 求 得 递归 关系 的 表达 式 ， 对 其 进行 以 下 变形 。 
oF m op (7) 
dp(t) p(t—1) 


Op(t) Oh(t—1) 
Oh(t—1) dp(t—1) 








enlt 1) 三 





= en(t) © 


= en(tf) © (Wf’(p(1—1))) 











(5.20) 


(5.21) 


(5.22) 
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如 此 一 来 ，en(1 一 z 一 1) 和 enG- 2z) 就 可 以 用 递归 形式 表示 如 下 。 
en(t—z—1)=en(t-z)O(Wf(p(t -zo—1))) 
这 样 就 可 以 计算 所 有 的 梯度 了 ， 各 参数 的 更 新 表达 式 如 下 所 示 。 
U(t+1) = U()-n > en(t — z)x(t — z)! 
0 
YU+I) = VO -neo(DhOD 


mdu+D = WO)- 7 Den(t— h(t—z— DT 
z=0 


bl1+1) = b(D) -nD ,en(t—z) 


z=0 


c(t+1) = c(t)— neo(?) 





这 里 的 参数 t+ 表示 的 是 要 回溯 多 少 个 过 去 状态 来 查看 时 间 依 赖 性 ， 所 以 理想 情况 应 该 是 


(23) 


(5.24) 


(5,25) 


(5.26) 


(5.27) 


(5.28) 





Tt 一 +co。 但 在 现实 中 为 了 防止 梯度 消失 (或 者 爆炸 )， 一般 也 就 设置 在 + = 10 ~ 100* 这 个 


范围 内 。 


5.1.4 ”实现 


与 一 般 的 神经 网 络 相 比 ， 循 环 神经 网 络 涉 及 了 BPTT 等 表达 式 看 上 去 比较 复杂 的 算法 ， 
但 是 得 益 于 库 的 存在 ， 实 现 起 来 也 不 会 特别 难 。 因 为 我 们 只 需 编写 模型 的 输出 部 分 ， 库 就 
会 玫 我 们 做 好 最 优化 部 分 的 处 理 。 下 面 我 们 就 依次 来 看 一 下 使 用 TensorFlow 和 Keras 的 实 
现 。 用 于 预测 的 数据 是 式 (5.2) 所 表示 的 含有 噪声 的 sn 波 ， 生 成 这 个 数据 的 代码 如 下 所 示 。 




















def sin(x, T=100): 


ekurnninpas un np /Tl 


def toy_problem(T=100，amp1=0.05) : 
Xnpsarangedom 2 Tr 
noise = ampl * np.random.uniform(low=-1.0, high=1.0, size=len(x)) 


return sin(x) + noise 





Pp6 也 就 是 说 ， 这 里 的 方法 不 能 训练 长 期 依赖 (long-term dependency ) 信息 。 解 决 这 个 问题 的 方法 将 会 在 后 续 章 


节 中 介绍 。 
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以 下 面 的 值 为 例 ， 


| 
ll 


100 
f = toy_problem(T) 


+ = 0,… ,200 时 的 数据 。 我 们 将 这 里 得 到 的 f 作为 全 部 数据 集 来 进行 实验 。 


入 
mh 
> 
en 
az 


5.1.4.1 准备 时 间 序 列 数据 

在 进入 具体 的 代码 实现 之 前 ,我 们 先 明确 一 下 “sin 波 的 预测 ”这 个 问题 的 含义 。 这 里 
所 说 的 预测 是 指 ， 在 获取 了 从 时 刻 1 到 时 刻 1 为 止 含有 噪声 的 sin 波 的 值 f(1),… , f(1) 后 ， 
能 否 预 测 时 刻 1+1 的 值 f(t + 1)。 如 果 预 测 值 f(t + 1) 是 恰当 的 ， 那么 使 用 这 个 值 就 可 以 弟 
归 地 预测 f(t + 2),…, f(t+n) 等 未 来 的 状态 。 

理想 情况 是 将 过 去 所 有 时 间 序 列 数据 的 值 1(1),… , 了 (7) 都 直接 用 作 模 型 的 输入 ， 但 是 
为 了 BPTT 计算 方便 ， 这 次 我 们 只 回溯 到 r = 25 的 数据 。 虽然 这 意味 着 从 数据 中 舍弃 了 长 
其 依赖 的 信息 ， 但 这 样 一 来 数据 集 就 只 有 1 一 +t 个 了 。 



































f(D) . f(n) > f(r+1) 
f2) 1 fT+D)| fr+2) 


























ft-7D) AD 一 JU+D) 





因此 时 间 z 所 包含 的 时 间 序 列 信息 的 训练 就 更 容易 进行 了 。 将 前 面 的 全 部 数据 f 分 割 成 全 
有 Tt 个 数据 的 代码 如 下 所 示 。 


length_of_sequences = 2 * TT # 全 部 时 间 序列 数据 的 长 度 
maxlen = 25 # 1 个 时 间 序 列 数据 的 长 度 


data = [] 
[Eee 


for i in range(0, length_of_sequences - maxlen + 1): 
data.append(f[i: i + maxlen]) 
target.append(f[i + maxlen]) 
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这 里 的 maxlen 就 相当 于 r。 另 外 ，data 是 预测 时 使 用 的 长 度 为 + 的 时 间 序列 数据 群 ， 
target 是 通过 预测 应 得 出 的 数据 群 。 




















在 传 给 模型 data 和 target 数据 集 之 前 ， 还 要 再 对 每 个 时 刻 的 数据 进行 拆 分 。 














JE 一 可 | Flix—T+ta) | | flix) 






































由 于 这 次 数据 中 只 有 sin 波 的 值 ， 所 以 输入 | f(tx -rz+a)| 是 一 维 的 。 不 过 请 注意 ， 在 更 
复杂 的 问题 中 ,输入 有 可 能 是 二 维 或 以 上 的 。 也 就 是 说 ， 如 果 设 数据 个 数 为 N、 输 入 的 
维度 为 7(= 1)， 那么 模型 中 使 用 的 全 体 输入 X 的 维度 为 (N,7,7)。 表 现 为 代码 时 ， 可 以 用 
reshape() 如 下 编写 。 


X 

















= np.array(data).reshape(len(data), maxlen, 1) 


同样 ， 为 了 支持 模型 输出 的 维度 (一 维 )， 对 target 也 要 进行 如 下 变形 。 


Y 


它 个 


= np.array(target).reshape(len(data), 1) 


] 等 价 于 下 列 代码 。 


= np.zeros((len(data), maxlen, 1), dtype=float) 
= np.zeros((len(data), 1), dtype=float) 


for i seqlin enumerate(data). 


for t, value in enumerate(seq): 
Xx[i, t, 0] = value 
Y[i, 0] = target[i] 








和 就 准备 好 时 间 序 列 数 据 了 。 为 了 完成 实验 ， 和 之 前 一 样 将 数据 分 割 为 训练 数据 和 验证 数据 。 





N_train = int(len(data) * 0.9) 


N_validation = len(data) - N_train 
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~traune Xavalidacion Eta valndatione = 


trainitest esplit(X Ytest size=Nivalidation) 


5.1.4.2 ”使 用 TensorFlow 的 实现 

在 循环 神经 网 络 的 实现 上 ，inference()、loss()、training() 的 结构 与 之 前 讲 过 的 并 
没有 什么 不 同 。 我 们 依次 来 看 看 具体 的 内 容 。 

首先 是 inference()， 它 简易 的 伪 代 码 应 该 是 下 面 这 样 的 。 











def inference(x): 
s = tanh(matmul(x, U) + matmul(s_prev, W) + b) 
y = matmul(s, V) + < 


return y 


不 过 ， 从 这 个 代码 中 我 们 无 法 了 解 s_prev 应 当 回溯 过 去 多 久 的 数据 ， 所 以 需要 添加 相当 于 
时 间 r 的 参数 maxlen， 然 后 在 某 个 地 方 进行 如 下 计算 。 


def inference(x, maxlen): 
# 
for t in range(maxlen): 
sit see ld 
y = matmul(s[t], V) + < 


return y 


使 用 TensorFlow 开发 时 ， 可 以 用 tf.contrib.rnn.BasicRNNCell() 来 实现 时 间 序 列 的 状态 的 
保存 ?7。 


cell = tf.contrib.rnn.BasicRNNCell(n_hidden) 





这 里 的 cell 在 内 部 保存 着 state ( 隐藏 层 的 状态 )， 只 要 把 它 依次 传 给 后 面 的 时 间 ， 就 能 实 
现 沿 着 时 间 轴 的 正 向 传播 。 由 于 最 早 的 时 间 只 有 输入 层 (没有 过 去 的 隐藏 层 )， 所 以 作为 代 
替 ， 需 要 像 下 面 这 样 给 它 “0” 的 状态 。 

















7 本 来 用 于 循环 神经 网 络 的 API 是 tf.nn.rnn 等 模块 提供 的 ,不 过 TensorFlow 从 1.0.0 版 开始 就 转移 到 
tf.contrib.rnn 了 。 以 后 随 着 版 本 升级 ，API 也 许 还 会 发 生变 化 ， 所 以 在 这 里 只 要 掌握 代码 实现 的 主要 结 
构 就 好 。 
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initial_state = cell.zero_state(n batch, tf.float32) 








这 里 的 n_batch 是 数据 的 个 数 。 虽 然 placeholder 中 训练 数据 的 个 数 可 以 是 None, 但 cell. 
zero_state() 必须 持 有 实际 的 值 ， 所 以 这 里 使 用 了 n_batch 参数 。 这 种 处 理 方式 和 dropout 


时 使 用 的 keep_prob 相似 ， 这 样 想 也 许 更 容易 理解 。 
把 这 些 组 合 起 来 ， 从 输入 层 到 输出 层 之 前 的 输出 便 可 如 下 实现 。 





state = initial_state 
outputs = [] # 保存 过 去 的 隐藏 层 的 输出 
with tf.variable_scope(C'RNN ' ) : 








for t in range(maxlen): 
te >0: 
tf.get_variable_scope().reuse variables() 
(cellmoutpute tatey ce stated 
outputs.append(cell_output) 
output = outputs[=1] 





基本 流程 就 是 依次 计算 各 时 刻 t 的 输出 cell(x[:，t，:]，state)。 不过， 


中 需要 根据 过 去 的 值 来 求 现 在 的 值 ， 所 以 需要 能 够 访问 表示 过 去 的 变量 。 
需要 添加 以 下 两 部 分 代码 。 








with tf.variable_scope(C'RNN ' ) : 


以 及 


六 SE 


tf.get_variable_scope().reuse variables() 











在 循环 神经 网 络 


为 了 实现 这 一 点 ， 


前 者 用 于 对 变量 添加 共通 的 名 称 ( 前 级 )。 加 了 这 段 代码 后 ， 试 着 用 print(outputs) 输出 信 
息 ， 可 以 看 到 各 个 过 去 的 层 都 会 像 下 面 这 样 被 命名 为 RNN/basic_rnn_cell_*/Tanh: gw8。 














p38 从 这 段 输出 也 可 以 看 出 ,隐藏 层 的 激活 函数 用 的 是 双 曲 正切 函数 tanh(x)。 这 是 














1 于 BasicRNNCell 


(activation=tf.tanh) 这 个 默认 的 参数 起 了 作用 。 一 般 使 用 tanh(x) 的 情况 比较 多 ， 不 过 从 式 (5.4) 可 以 看 

















出 ,使 用 其 他 的 激活 函数 也 没有 问题 。 
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[<tf.Tensor 'RNN/basic_rnn_cell/Tanh:0' shape=(?, 20) dtype=float32>, 
<tf.Tensor 'RNN/basic_rnn_cell_1/Tanh:0' shape=(?, 20) dtype=float32>, 
S(O ll] 

<tf.Tensor 'RNN/basic_rnn_cell 23/Tanh:0' shape=(?, 20) dtype=float32>, 
<tf.Tensor 'RNN/basic_rnn_cell 24/Tanh:0' shape=(?, 20) dtype=float32>] 








后 者 则 表明 了 要 再 次 使 用 带 有 该 名 称 的 变量 。 使 用 得 到 的 输出 output， 就 可 以 将 “隐藏 
屋 - 输出 层 ” 和 前 面 一 样 表 示 如 下 。 





一 
ll 


weight_variable([n_hidden, n_out]) 
c = bias variable([n out]) 
tf.matmul(output，V) + <c # 线性 激活 


和 
ll 





这 样 就 完成 了 模型 输出 部 分 的 代码 。 将 前 面 的 代码 进行 汇总 ， 得 到 inference() 整体 
的 代码 如 下 所 示 。 


def inference(x, nNn_batch, maxlen=None, n_hidden=None, nNn_out=None): 





def weight_variable(shape): 
initial = tf.truncated normal(shape, stddev=0.01) 


return tf.Variable(initial) 


def bias_variable(shape) : 
initial = tf.zeros(shape, dtype=tf.float32) 


return tf.Variable(initial) 


cell = tf.contrib.rnn.BasicRNNCell(n_hidden) 
initial_state = cell.zero_state(n_batch, tf.float32) 


state = initial_ state 
outputs = [] # 保存 过 去 的 隐藏 层 的 输出 
with tf.variable_scope(C'RNN ' ) : 





for t in range(maxlen): 
li ee 
tf.get_variable_scope().reuse variables() 
(cellioutpute state) = Gell(xB tl state) 
outputs.append(cell_output) 


output = outputs[=1] 
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V = weight_variable([n_hidden，n_out]) 
= bias_variable([n_out]) 

y = tf.matmul(output，V) + c # 线性 激活 

return y 








剩 下 的 loss() 和 training() 的 代码 与 之 前 基本 没有 变化 。 这 次 在 loss() 中 使 用 的 是 


defoss(y 司 七 并 
mse = tf.reduce mean(tf.square(y - t)) 


[Eeeurngimse 


所 以 , 在 training() 中 使 用 Adam 时 的 代码 如 下 所 示 。 


def training(1oss) : 
optimizer = \ 
tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.9, beta2=0.999) 


train_step = optimizer .minimize(1oss) 


returm train step 


使 用 上 述 代 码 ， 在 主 处 理 的 部 分 将 模型 设置 相关 的 代码 编写 如 下 。 





n_in = len(X[0][0]) #1 
n_hidden = 20 
n_out = len(Y[0]) #1 


x = tf.placeholder(tf.float32, shape=[None, maxlen, n_in]) 
t = tf.placeholder(tf.float32, shape=[None, n_out]) 
n_batch = tf.placeholder (tf.int32) 


y = inference(x, n_batch, maxlen=maxlen, n_hidden=n_hidden, n_out=n_out) 
Losse Sloss(y Ot) 


train_step = training(loss) 





由 于 n_batch 的 值 在 使 用 训练 数据 时 和 使 用 验证 数据 时 会 发 生变 化 ， 所 以 这 里 把 它 用 作 
placeholder。 男 外 ， 实 际 的 训练 模型 的 代码 也 可 以 与 之 前 一 样 编写 。 
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epochs = 500 
batch_size = 10 


nite tf.global_variables_initializer() 
sess = tf.Session() 


sess.run(init) 


n_batches = N_train // batch size 


for epoch in range(epochs): 
Xo shuihlelXtraln am 


for i in range(n_batches): 
start = i * batch size 


end = start + batch_ size 


sess.run(train_step, feed_ dict={ 
x Xstart: en 
tomyastarmtenole 
n_batch: batch_size 


br) 











# 使 用 验证 数据 进行 评估 


val _ loss = loss.eval(session=sess, feed dict={ 





x: X_validation, 
EvalidatonR 
n_batch: N_validation 


1 


history['val_ loss'].append(val_loss) 
priunt( epoch ~ epoch 


-aliatr omness ee aossy 


# 检查 Early Stopping 
if early_stopping.validate(val_ loss): 
break 


这 样 就 可 以 进行 模型 的 训练 了 。 实 际 运行 后 ， 如 图 5.5 所 示 ， 可 以 看 出 确 
的 训练 。 





心 > 各 已 


头 材 


够 完成 sin 波 
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10 15 20 25 30 35 40 
epochs 


图 5.5 ”sin 波 的 预测 误差 的 变化 


既然 误差 变 小 ， 训 练 也 能 够 完成 了 ， 那 我 们 就 来 看 一 下 用 实际 训练 好 的 循环 神经 网 络 
模型 能 否 生成 sin 波 吧 。 先 从 原 数 据 最 开始 的 部 分 取出 长 度 为 z 的 数据 〈 即 1 个 数据 ) 用 
它 来 预测 r+ 1。 然 后 把 r+1l 用 作 模 型 的 输入 再 去 预测 r+2， 之 后 重复 这 个 流程 。 这 样 一 
来 , 从 2r+1 开 始 ， 就 全 部 都 是 由 模型 的 预测 值 作 为 输入 所 产生 的 输出 了 。 实 际 编写 代码 
时 ， 要 向 下 面 这 样 先 取出 数据 最 开始 的 r 的 部 分 。 











truncate = maxlen 


Z = X[:1] # 只 取出 原 数据 最 开始 的 部 分 





然后 为 了 图 示 ， 定 义 original 和 predicted。 


original = [f[i] for i in range(maxlen)] 


predicted = [None for i in range(maxlen)] 


之 后 会 随时 间 这 个 predicted 添加 预测 值 。 依 次 进行 预测 的 代码 如 下 所 示 。 


for i in range(length_of_sequences - maxlen + 1): 
# 根据 最 后 的 时 间 序 列 数据 预测 未 来 
ZI 
y_ = y.eval(session=sess, feed dict={ 
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> es| [Sa 
nbacehendl 
D3 
# 使 用 预测 结果 生成 新 的 时 间 序 列 数 据 


sequence_ = np.concatenate( 








(Zz .reshape(maxlen, n in)[1:], y ), axis=0) \ 
reshape(1, maxlen, ne in) 
Z = np.append(Z, sequence_ , axis=0) 


predicted.append(y_.reshape(-1)) 


为 了 让 输出 的 大 小 和 输入 的 大 小 一 致 ， 对 预测 值 y_ 进行 了 一 些 调整 。 虽 然 这 部 分 的 代码 看 
起 来 有 些 复杂 ,但 是 所 做 的 事情 不 过 是 “将 最 近 一 次 的 预测 值 再 次 用 作 模 型 的 输入 ”而 已 。 
用 以 下 代码 可 以 生成 如 图 5.6 所 示 的 图 形 。 








pltsre( font family= seraf,) 
paler feurnee) 





plt.plot(toy_problem(T, ampl=0), linestyle='dotted', color='#aaaaaa') 
plt.plot(original, linestyle='dashed', color='black') 
plt.plot(predicted, color=" black’) 

plt. show() 





虽然 与 真正 的 sin 波 (图 中 的 虚线 ) 有 些 偏离 ， 但 我 们 确实 成 功 预测 出 抓 住 了 波 的 特征 的 
时 间 序 列 数据 。 











人 Sp 


0.0F 


-0.5r 
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图 5.6 生成 sn 波 


214 | 第 5 章 循环 神经 网 络 





5.1.4.3 ”使 用 Keras 的 实现 
使 用 TensorFlow 实现 时 用 的 是 tf.contrib.rnn.BasicRNNCell()， 而 使 用 Keras 时 ， 引 
和 人 下 面 的 库 即 可 支持 循环 神经 网 络 。 








from keras.layers.recurrent import SimpleRNN 


HF 





增加 层 的 方法 与 之 前 一 样 ， 只 需 编 写 下 列 代码 即 可 。 


model = Sequential() 

model.add(SimpleRNN(n_hidden, 
kernel_initializer=weight_variable, 
input_shape=(maxlen, n_out))) 

model.add(Dense(n out, kernel_ initializer=weight_variable)) 


model.add(Activation('linear')) 


使 用 TensorFlow 时 还 需要 计算 和 回溯 过 去 state 的 时 间 长 度 相应 的 隐藏 层 的 输出 ， 而 Keras 
会 帮 有 我 们 计算 这 些 。 设 置 最 优化 方法 的 代码 也 与 之 前 相同 。 


optimizer = Adam(lr=0.001, beta_1=0.9, beta_2=0.999) 
model.compile(loss='mean_squared error', 


optimizer=optimizer) 


请 注意 误差 变 成 了 mean_squared_error。 


此 外 ， 与 使 用 TensorFlow 时 一 样 ， 实 际 训 练 部 分 的 代码 也 与 前 面 我 们 讲 过 的 完全 相同 。 








epochs = 500 


batch_size = 10 


modele rut(X ta Ytralnm 
batch_size=batch_size, 
epochs=epochs, 
validation data=(X_validation, Y_validation), 


callbacks=[early_stopping]) 


在 Keras 中 可 以 用 model.predict() 得 到 模型 的 输出 ,使 用 它 来 生成 sin 波 的 代码 如 下 所 示 。 


5.2 LSTM 
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truncate = maxlen 
Z = X[:1] # 只 取出 原 数据 最 开始 的 部 分 


original = [f[i] for i in range(maxlen)] 
predicted = [None for i in range(maxlen)] 


for i in range(length_of_sequences - maxlen + 1): 
z_ = Z[-1:] 
y_ = model.predict(z ) 
sequence = np.concatenate( 
(za neshnapel(maxlenn neam la 
axis=0).reshape(1, maxlen, n_in) 
Z = np.append(Z, sequence_, axis=0) 
predicted.append(y_.reshape(-1)) 





与 使 用 TensorFlow 时 相 比 ， 使 用 Keras 实现 的 代码 要 简单 得 多 ,但 是 大 家 要 仔细 理解 
在 代码 背后 进行 的 每 一 个 计算 。 











STM 


5.2.1 LSTM 块 











虽然 可 以 通过 引入 过 去 的 隐藏 层 来 预测 时 间 序 列 数 据 ， 但 是 还 存在 着 由 梯度 消失 所 导 
致 的 无 法 训练 长 期 依赖 信息 的 问题 。 为 了 解决 这 个 问题 而 出 现 的 方法 就 是 LSTM (Long 
Short-Term Memory )。 顾 名 思 义 ，LSTM 是 对 长 期 依赖 和 短期 依赖 都 能 够 进行 训练 的 算法 。 

在 详细 了 解 LSTM 的 内 容 之 前 ,我们 先 来 了 解 一 下 它 的 概要 。 之 前 我 们 所 考虑 的 神经 
网 络 的 隐藏 层 中 只 有 简单 的 神经 元 ， 而 在 LSTM 中 ,为 了 训练 长 期 依赖 信息 ， 放 置 的 则 是 
名 为 LSTM 块 (LSTM block ) 的 类 似 于 电路 的 结构 (如 图 5.7 所 示 ) *”。 当 然 , 现在 大 家 还 
不 需要 理解 LSTM 块 的 内 部 结构 。 从 图 中 可 以 看 出 ,一 个 个 神经 元 都 被 替换 为 LSTM 块 
了 。 这 就 是 引入 了 LSTM 块 的 网 络 与 普通 的 (循环 ) 神经 网 络 有 较 大 差异 的 部 分 。 虽 然 
模型 看 起 来 复杂 了 ,但 只 是 把 神经 元 替换 为 LSTM 块 而 已 ， 模 型 整体 的 结构 与 图 5.3 没有 
区 别 。 


































































































PP9 或 者 称 为 LSTM 记忆 块 (LSTM memory block )。 
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输入 层 输出 层 
xX) BAO) 

一 一 OO 一 一 
> > 〇 > 














图 5.7 引入 LSTM 块 


如 图 5.8 所 示 ， 将 隐藏 层 中 的 LSTM 块 的 输出 作为 过 去 的 隐藏 层 予 以 保存 ， 并 再 次 传播 给 
隐藏 层 。 

LSTM 算法 本 身 并 不 是 最 近 才 出 现 的 ， 其 最 早 的 相关 文献 [1] 发 表 于 1997 年 ， 之 后 又 
经 历 了 多 次 改良 。 图 5.7 所 示 的 模型 就 是 改良 版 的 LSTM。 根 据 相 关 文 献 ，LSTM 经 历 了 以 
下 3 次 大 的 改良 。 











1. 引 入 CEC、 输 入 门 、 输 出 门 山 
2. 引入 遗忘 门 白 
3. 引入 宇 视 孔 连接 吕 





LSTM 与 之 前 出 现 的 模型 看 起 来 大 不 相同 ,不 过 只 要 我 们 按照 上 面 这 个 顺序 了 解 了 这 些 改 
良 之 后 就 会 容易 理解 了 。 接 下 来 就 让 我 们 依次 来 看 一 下 这 些 改良 。 
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输入 层 隐藏 层 输出 层 
X hea) y(n 





(过 去 的 ) 
隐藏 层 


ha- 


图 5.8 LSTM 的 概略 图 


5.2.2 CEC、 输 入 门 和 输出 门 


5.2.2.1 稳 态 误差 

在 隐藏 层 由 普通 神经 元 构成 的 循环 神经 网 络 中 ， 如 果 回 溯 的 时 间 过 深 过 和 久 ， 就 会 出 现 
梯度 消失 问题 。 不 过 ， 为 什么 梯度 会 消失 呢 ? 这 里 通过 式 (5.22) 和 式 (5.23) 进行 说 明 。 从 
这 两 个 表达 式 可 以 得 到 时 刻 上 - z 的 隐藏 层 的 误差 en(t - z)， 为 简单 起 见 ， 这 里 我 们 省 略 向 
量 元 素 积 的 记号 ， 将 表达 式 如 下 记述 。 



































et -d=end [Wp 7) (5.29) 


T=1 





因此 ， 如 果 激 活 函 数 f(.) 是 sigmoid 函数 ,那么 了 (.) < 0.25 会 被 指数 倍 地 相 乘 ， 而 且 权 重 
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W 也 会 随 之 变 小 ， 导 致 en(t - z) 的 值 指数 级 缩小 。 所 以 可 以 采用 与 普通 深度 学 习 时 一 样 的 
做 法 ， 通 过 调整 激活 函数 和 权重 的 初始 值 来 解决 梯度 消失 问题 * ,不 过 ,LSTM 采取 的 则 
是 修改 网 络 (神经 元 ) 构造 的 方法 。 

梯度 消失 会 导致 误差 不 再 反 向 传播 ， 防 止 该 问题 发 生 的 简单 方法 是 使 式 (5.22) 满足 以 
下 条 件 。 























en(t—1)=en() Oo(Wf (p(t -1))=1 (5.30) 
这 样 ， 无 论 回 漳 多 少时 间 ， 误 差 都 保持 为 1 (不 会 消失 )。 为 了 满足 这 一 点 ， 可 以 想到 的 最 
简单 的 做 法 就 是 让 f(x) =x 且 琴 =7， 也 就 是 用 线性 激活 作 激活 函数 ， 用 单位 矩阵 作 权 重 和 矩 
阵 。 这 样式 (5.30) 就 可 以 简化 如 下 。 























en(t > 1) 宇 en(1) =1 (5.31) 





而 要 实现 这 一 点 ， 新 增加 的 神经 元 就 必须 和 隐藏 层 现 有 的 神经 元 并 列 。 这 是 由 于 模型 需 
要 我 们 之 前 考虑 过 的 、 使 用 sigmoid 等 函数 进行 非 线 性 激活 的 神经 元 。 这 里 新 增加 的 使 得 
误差 不 再 变化 的 神经 元 通常 被 称 为 CEC ( Constant Error Carousel， 常 量 误差 传输 子 ) * 1。 
carousel 是 旋转 木马 的 意思 ， 顾 名 思 义 ， 引 入 CEC 之 后 ,误差 就 会 在 原 地 打转 (不 再 变 
化 ) 现在 隐藏 层 中 的 各 神经 元 已 不 再 是 普通 的 神经 元 ， 它 们 被 换 成 了 块 结构 。 

增加 了 CEC 的 隐藏 层 如 图 5.9 所 示 。 图 中 的 A g 代表 激活 函数 ， 与 之 相对 应 的 神经 元 
会 被 非 线性 激活 。 正 如 前 面 讲 过 的 那样 ， 其 实 只 用 /进行 非 线性 激活 就 够 了 ， 但 这 里 再 一 
次 (使 用 g ) 进行 非 线 性 激活 ， 可 以 使 值 更 容易 传播 。 另 外 ， 图 中 央 的 CEC 将 收 到 的 值 直 
接 作 为 过 去 的 值 进行 保存 ， 并 传 给 下 一 时 刻 。 也 就 是 说 ， 虚 线 的 箭头 表示 过 去 时 间 的 传播 ， 
x 符号 的 节点 表示 要 乘 的 值 。 

接 下 来 考虑 CEC 的 值 的 传播 。 设 了 激活 后 的 值 为 a(t)，CEC 的 值 为 c(t1)， 那么 有 以 下 
表达 式 成 立 * 7。 



























































c(t) = a(t) + c(t—1) (5:32) 

















>10 实际 上 ， 在 文献 [4] 中 就 展示 了 将 ReLU 用 作 简 单 循环 神经 网 络 的 激活 函数 ， 并 用 单位 矩阵 来 初始 化 权重 的 
做 法 ， 并 证 明了 这 种 做 法 可 以 完成 长 期 依赖 的 学 习 。 这 篇 论文 发 表 于 2015 年 ， 可 以 说 是 在 深度 学 习 的 研究 
变 得 活路 之 后 所 产生 的 成 果 之 一 。 

P11 或 者 称 为 记忆 单元 ( memory cell )。 

P12 al(t) 和 c(t) 都 是 向 量 ， 这 相当 于 隐藏 层 中 的 多 个 LSTM 块 都 可 以 用 这 个 表达 式 来 表达 。 图 5.9 中 的 LSTM 
块 只 有 一 个 ， 所 以 每 个 向 量 的 元 素 都 可 以 用 ak(0) 和 cx(1) 来 表示 。 一 个 LSTM 块 只 能 替换 一 个 神经 元 ， 注 


音 丰 更 毛 泪 
意 不 要 弄 混 。 
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| | 
| x | 
1 1 
| * | 
输入 层 一 一 一 > | 输出 层 
| 
图 5.9 引入 CEC 
设 误差 函数 为 E， 即 可 求 出 以 下 绪 
dE OE ac 人 1) oF 


(5.33) 





dc-1) dc dc(t -1) dc 





可 以 看 出 ， 在 反 向 传播 的 过 程 中 梯度 不 会 消失 。 这 样 一 来 ， 即 使 回溯 过 去 的 时 间 ， 误 差 也 
会 保持 不 变 ， 也 就 可 以 创建 能 够 训练 长 期 依赖 信息 的 网 络 了 。 


5.2.2.2 输入 权重 冲突 和 输出 权重 冲突 
引入 CEC 就 可 以 记 住 过 去 所 有 的 输入 信息 ， 回 渊 到 过 去 时 刻 时 也 就 能 将 误差 反 向 传播 
了 。 不 过 , 在 训练 时 间 序 列 数据 时 还 有 一 个 大 问题 。 对 于 某 个 神经 元 ， 当 收 到 神经 元 应 当 
和 言 号 时 ， 应 该 增 大 权重 、 进 行 激 活 ; 收 到 无 关 的 信号 时 ， 应 该 减 小 权重 、 不 进行 激 
舌 。 具 体 来 说 ， 在 以 时 间 序 列 数据 为 输入 时 ， 模 型 就 应 该 在 收 到 有 时 间 依 赖 性 的 信号 时 增 
ee 收 到 没有 依赖 性 的 信号 时 减 小 权重 。 但 是 只 要 神经 元 以 同样 的 权重 相连 接 ， 那 么 
两 种 情况 就 会 相互 打消 彼此 权重 的 更 新 ， 这 就 特别 容易 导致 长 期 依赖 信息 的 训练 不 能 很 好 
地 进行 。 这 个 问题 被 称 为 输入 权重 冲突 ( input weight conflict )， 是 循环 神经 网 络 训练 受阻 的 
一 大 原因 。 神 经 元 的 输出 也 存在 一 样 的 问题 ， 被 称 为 输出 权重 冲突 〈output weight conflict )。 
为 了 解决 这 个 问题 ,需要 设置 一 个 机 制 ， 让 神经 元 “只 有 ”在 收 到 具有 依赖 性 的 信号 
时 被 激活 ， 其 他 情况 则 是 在 内 部 保存 似乎 具有 依赖 性 的 信息 。 后 者 可 由 CEC 实现 ， 至 于 
前 者 ， 需 要 引入 类 似 于 “ 门 ” 的 东西 ， 以 便 能 够 在 需要 时 传播 信号 ， 其 他 时 间 屏 蔽 信号。 
于 是 ， 如 网 5.10 所 示 ，LSTM 在 引入 CEC 的 同时 又 引入 了 输入 门 (input gate ) 和 输出 门 
( output gate )。 在 CEC 的 输入 部 分 设置 输入 门 ， 在 输出 部 分 设置 输出 门 ， 就 可 以 让 输入 / 输 
出 都 只 在 需要 过 去 的 信息 时 才 打开 门 并 传播 信号 ， 除 此 之 外 的 时 间 都 关 着 门 ， 这 就 实现 了 
“有 选择 性 地 保存 过 去 的 信息 ”这 一 功能 。 
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r=----------------------------------r----------------4 





输出 层 








r 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 1 





图 5.10 引入 输入 门 、 输 出 门 
































既然 输入 门 和 输出 门 都 是 “ 门 ”， 那 么 理想 的 传播 值 就 是 0 〈 门 关 着 ) 或 者 1 ( 门 开 着 )， 
而 且 我 们 还 需要 考虑 开关 门 时 机 的 最 优化 。 通 过 用 权重 来 表示 各 个 门 输入 /输出 的 连接 ， 就 
可 以 参考 神经 元 的 机 制 来 思考 表达 式 了 。 参 照 图 5.7, 设 时 刻 1 的 输入 层 的 值 为 x(1)， 隐 藏 层 
的 值 为 h(?)， 输 入门 和 输出 门 的 值 分 别 为 i(f) 和 o(r)， 那么 有 以 下 表达 式 成 立 。 

















i(t) = o(Wix(t) + Uih(t -1)+b;) (5.34) 
0(t) = o(Wox(t) + Uoh(t — 1)+b,) (5;35) 


其 中 到 WV:、U 表示 权重 和 矩阵，b; 表示 偏 置 向 量 ，o(:) 表示 各 门 的 激活 函数 ”3。 这 样 就 可 以 
把 CEC 的 值 由 式 (5.32) 改写 为 下 式 。 
c(1) =i(t) Oa(t)+c(t—1) (5.36) 


根据 这 些 就 可 以 进一步 得 出 以 下 结果 。 











h(t) = 0(1) © g(c(n)) (5.37) 
通过 引入 一 个 可 以 让 过 去 的 值 只 有 在 需要 它 时 才能 出 入 的 门 ， 就 可 以 高 效 地 训练 长 期 依赖 








言 息 了 。 


5.2.3 遗忘 门 








引入 了 CEC、 输 入 门 和 输出 门 后 ， 与 普通 的 循环 神经 网 络 相 比 ，LSTM 的 优化 成 果 非 
常 显著 。 不 过 ， 还 是 存在 一 些 问题 。 比 如 在 输入 的 时 间 序 列 数据 的 模式 发 生 剧 烈 变 化 时 ， 
LSTM 块 内 部 不 应 再 记忆 过 去 的 信息 ,但 其 内 部 保存 的 CEC 的 值 却 很 难产 生变 化 。 虽 然 在 


























>13 文献 [1] 用 的 是 sigmoid 函数 ， 不 过 用 其 他 激活 函数 也 没有 问题 。 
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内 部 保存 过 去 的 信息 很 重要 ， 但 是 当 不 再 需要 这 些 信 息 时 ， 忘 掉 它 们 同样 也 很 重要 。 只 和 赁 
输入 门 和 输出 门 并 不 能 控制 CEC 的 值 ， 要 实现 这 个 目的 ， 需 要 有 能 直接 修改 CEC 值 的 手 
段 。 此 时 可 以 引入 的 就 是 如 图 5.11 所 示 的 遗忘 门 (forget gate )。 

















— 输出 层 





输入 层 








图 5.11 引入 遗忘 门 








遗忘 门 的 作用 是 接收 从 CEC 传 来 的 误差 ， 然 后 在 需要 的 时 候 “遗忘 ”CEC 中 保存 的 
值 。 通 过 表达 式 来 看 它 的 作用 可 以 看 得 很 清楚 。 设 遗忘 门 的 值 为 AD， 那么 它 的 表达 式 也 
可 以 与 表示 输入 门 、 输 出 门 的 式 (5.34) 和 式 (5.35) 一 样 。 
































f(D)=0 (Wx(D) + Uh D+by) (5.38) 
这 样 可 以 推导 出 以 下 结 
ja 
er(t) := BF (5.39) 
0E dc() 
=- 3c0) © 3F0) (5.40) 
= ec(t) © c(t—1) (5.41) 





也 就 是 说 ， 需 要 用 CEC 的 值 对 遗忘 门 的 值 进行 最 优化 。 此 外 ， 引 入 遗忘 门 后 ， 式 (5.32) 和 
式 (5.36) 所 表示 的 CEC 最 终 变 成 了 下 面 的 样子 。 





c(t)=i(t) Oa(t)+ f(t) Oc(t—1) (5.42) 


这 说 明 遗 忘 门 确实 可 以 控制 保存 在 网 络 中 的 值 。 


222 | 第 5 音 循环 神经 网 络 





5.2.4 宕 视 孔 连接 


有 了 CEC 及 前 面 的 三 种 门 ， LSTM 变 得 非常 实用 ， 能 够 顺利 训练 大 部 分 的 长 期 和 短 
期 时 间 序 列 数据 ， 不 过 它 在 结构 上 还 有 一 个 大 问题 。 之 前 引入 三 种 门 是 为 了 在 恰当 的 时 
机 传播 或 蔡 换 保存 在 CEC 中 的 过 去 的 信息 。 可 是 从 图 5.10 和 图 5.11, 或 者 式 (5.34) 、 式 
(5.35) 和 式 (5.38) 中 可 以 看 出 ， 用 门 进行 控制 时 使 用 的 是 时 刻 1 的 输入 层 的 值 x(1)， 以 及 时 
刻 !=- 1 的 隐藏 层 的 值 at - DJ)， 并 没有 使 用 需要 控制 的 CEC 本身 所 保存 的 值 。 一 看 到 控制 
时 使 用 的 是 h(t - 1)， 可 能 就 有 人 会 以 为 这 能 够 反映 CEC 的 状态 ， 但 是 由 于 LSTM 块 的 输 
出 依赖 于 输出 门 ， 所 以 如 果 输 出 门 一 直 是 关闭 状态 ， 就 会 出 现任 何 门 都 无 法 访问 CEC， 也 
就 是 无 法 查看 CEC 状态 的 问题 。 为 了 解决 这 个 问题 而 引入 的 就 是 窥视 孔 连 接 ( peephole 
connection )。 如 图 5.12 所 示 ， 突 视 孔 连接 用 于 连接 CEC 和 各 个 门 ， 通 过 它 就 可 以 把 CEC 
的 状态 传递 给 各 个 门 了 。 需 要 注意 的 是 传 给 输入 门 和 遗忘 门 的 是 过 去 的 值 c(t - 1)， 而 传 给 
输出 门 的 是 c(D。 







































































EN 
> 
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输出 层 





图 5.12 引入 宪 视 孔 连 接 











以 上 就 是 LSTM 的 机 制 。 虽 然 它 的 结构 与 一 般 的 神经 网 络 大 不 相同 ， 但 这 都 是 为 了 解 
决 下 面 这 两 个 问题 而 进行 改良 的 结果 。 


@ 在 网 络 中 保存 过 去 的 信息 
@ 只 在 需要 的 时 候 获取 或 替换 过 去 的 信息 


接 下 来 我 们 考虑 模型 的 公式 化 ， 有 前 面 这 些 讲 解 做 铺垫 ， 理 解 后 面 的 内 容 应 该 不 成 问题 。 
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5.2.5 模型 化 

虽然 LSTM 看 上 去 比较 复杂 ， 但 我 们 需要 考虑 的 问题 与 其 他 模型 没有 区 别 。 只 要 用 合 
适 的 数学 表达 式 表示 正 向 传播 和 反 向 传播 ， 就 可 以 和 其 他 模型 一 样 ， 通 过 计算 各 模型 参数 
的 梯度 来 完成 模型 的 训练 。 结 合 图 5.13， 我 们 再 来 整理 一 下 CEC 和 各 个 门 的 值 等 信息 。 



































x(7) h(t) 
图 5.13 LSTM 块 
首先 ，CEC 的 值 ce(7) 与 式 (5.42) 是 一 样 的 。 
c(t)=i(t) Oa(t)+ f(t) Oc(t—1) (5.43) 
然后 ， 引 入 了 突 视 孔 连接 的 各 门 的 值 i(?)、o(?) 和 .Fn 可 以 写成 下 面 这 样 。 

i(t) = o (Wix(t) + Uih(t = 1)+ Vc(t—1)+b;) (5.44) 
0(1) = o (Wox(t) + Uoh(t — 1)+ Vclt) + bo) (5.45) 
f(D) = o (Wex() + Urh(t— 1D)+ Velt— D+by) (5.46) 





请 注意 o() 的 舌 视 孔 连 接 是 由 c(?) 表示 的 ， 而 非 c(1 -1)。 此 外 ，a(?)、h() 表示 如 下 。 
alt) = f(Wax(D) + Uah(t — 1)+ ba) (5.47) 
h(t) = 0(1) © g(e(n) (5.48) 





式 (5.48) 和 式 (5.37) 相同 。 这 样 就 完成 了 LSTM 块 正 向 传播 的 定义 。 
接 下 来 考虑 反 向 传播 。 首先 对 式 (5.44) ~ 式 (5.47) 分 别 定义 0D)、6(1)、f() 和 an)。 





iD) = (i) (5.49) 
olt) = 0 (6(7)) (5.50) 
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JO = o(f0) 
alD) = f(a() 
然后 就 可 以 用 下 式 来 表示 这 些 值 。 


El(?) W U Vi 
oD | |W, UV, 0 
(人 Wr Ur Vr 
A(7) W, U, 0 


SSES 


(5.51) 
(5.52) 
x(1) 
h(t -1) 
c(t—1) (5.53) 
f c(7) 
ba . 


模型 的 所 有 参数 都 汇集 在 式 (5.53) 之 中 ， 有 Ws、U;、V、b; 共 15 个 LSTM 参数 ”4。 这 里 进 


行 如 下 所 示 的 定义 ， 


Xx(1) 
h(t—1) 
z(t) := | c(t—1) 
c(t) 
1 


那么 ， 式 (5.53) 就 会 将 变 成 以 下 形式 。 


S() = Wz(?) 


S| 

中 

© 
SorS 








> 14 如 果 模 型 中 没有 舌 视 孔 连 接 ， 那么 式 (5.53) 将 会 变 成 下 面 这 样 。 




















i(?) W: U: bi 
6(7) 三 Wo Uo bo 
f0) Wr Ur br 
a(t) Wa Ua ba 





艾 


Sp 
洋 
内 


变 为 12 个。 





(5.54) 
bi 
Do 
p (5595) 
7 
Da 
(5.56) 
(5.57) 
x(1) 
h(t — 1) | 
1 


5.2 LSTM | 225 





这 样 处 理 之 后 ， 只 需求 器 即 可 ， 和 一 个 个 求 梯度 时 相 比 ， 表 达 式 简洁 多 了 。 接 着 ， 再 进行 
以 下 定义 。 





二 oF 

8s() (5.58) 
ez(1) := 0 
” 0z(t) (5.59) 


























式 (5.57) 与 普通 的 线性 激活 表达 式 的 形式 相同 ， 因 此 可 以 表示 如 下 。 





ez(t) = 全 Te (5.60) 
这 样 就 可 以 得 到 以 下 结果 。 
Fy = es(Dz() (5.61) 





最 终 ， 问 题 就 转化 为 求 es(D) 、ez(D 的 各 元 素 了 。 
0 下 es()。 根 据 式 (5.49) ~ 式 (5.52)， 事 先 定义 etD := 问 、ei(D) := 站 等, 然 


E01) 











行 如 下 推导 。 
OE 
0E 0i() 
~ 2D) ™ BR) 0 
= ei Oo (iw) (5.64) 
0 
es(t) := go (5.65) 
0E 8o0) ee 
-= 00 © 560) B09) 
皇 eo(O Oo (6(7)) (5.67) 
oaE 
es(D) := (5.68) 
aE 8f0) 
5.69 
8f 0) 2 af) Bo 
= ej(D) Oo ( f0) (5.70) 


第 5 章 循环 神经 网 络 





oF 


ealt) := a0) 


_ OE 0al) 
Oa(lt) 90a(1) 


= eCalt) © f° (a(t)) 


这 些 表达 式 中 的 ei(1)、ey(1、eo(1) 和 eal?) 可 如 下 表示 。 














jn OF 
ei(1) := a 
_ OE _ dc(1) 
Ac(t) oi(?) 
= ec(D) © a(f) 
oF 
eolf) := 50 
_0F OhW) 
oh(t) 90(1) 
= en(l) © g (c(n)) 
er(D) :二 5 
OE © 0c() 
dc(t) 6070) 
= ec(ltjOc(t—1) 
_ OF 
ealf) := Ba 
oF Ac(?) 








acO ~ a(t) 


ec(1) OUD) 





所 以 只 要 考虑 ec(?) := 如 





(5.71) 


(5.72) 


(5:73) 


(5.74) 


(5.75) 


(5.70) 


(5.77) 


(5.78) 


(9.79) 


(5.80) 


(5.81) 


(5.82) 


(5.83) 


(5.84) 


(5.85) 


和 en(?) := 总 合 即 可 。 由 于 从 输出 层 反 向 传播 而 来 的 en(?) 是 已 知 
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的 ， 所 以 最 终 只 要 求 出 ec(1) 就 可 以 求 得 关于 es(?) 的 所 有 梯度 。 尝 试 一 下 求 ec()， 可 以 推 
导出 下 起 。 
OE 61) 


ei(t) = a (5.86) 





en(t) © o(1) © 8 (c(i)) (5.87) 





但 是 因为 ez(?)， 我们 还 需要 考虑 时 刻 1--1 的 ec(t1 一 1)， 而 这 可 以 像 下面 这 样 求 出 。 





0E ~ gc() 
ec(t—1) = 5c © dc 1) (5.88) 
= ec(f) © f(D) (5.89) 








男 外 ，en(t 一 1) 和 en(?) 一 样 是 已 知 的 。 到 此 , 求 路 时 所 需 的 所 有 项 就 都 求 出 来 了 ， 所 以 
将 各 时 间 序 列 数据 的 时 刻 1 的 (训练 过 程 中 的 ) 参数 WW 定义 为 下 (1)， 就 可 以 按照 下 式 更 新 
参数 ， 得 出 最 优 解 了 。 








dE ww OF 


BW 所 8 





(5.90) 


5.2.6 ”实现 




















虽然 LSTM 模型 的 参数 比 普通 循环 神经 网 络 的 多 ， 但 是 使 用 TensorFlow 或 Keras 库 
时 ， 无 须 具 体 编写 复杂 的 表达 式 的 代码 即 可 完成 开发 。 使 用 TensorFlow 开发 时 ， 只 需 对 
inference() 中 的 下 面 这 行 代 码 
cell = tf.contrib.rnn.BasicRNNCell(n_hidden) 


进行 如 下 修改 ， 


cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 














P15 不 过 ， 实际 进行 更 新 计算 时 ， 由 于 CEC 中 的 误差 保持 不 变 ， 所 以 我 们 使 用 下 列表 达 式 作为 在 时 刻 1 的 CEC 
保存 的 误差 。 
c(t) ~ ec(lt +1)+ec(?t) 
eclt) © 6c(t) 
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或 如 下 修改 ， 


cell = tf.contrib.rnn.LSTMCell(n_hidden, forget_bias=1.0) 





就 可 以 使 用 LSTM 了 。BasicLsTMCel1() 和 LSTMCel1() 的 区 别 在 于 是 否 使 用 了 寅 视 孔 连接 。 
正如 之 前 讲 过 的 那样 ， 使 用 窥视 孔 连 接 确实 可 以 更 好 地 避免 问题 的 发 生 。 但 是 ,在 训练 中 
出 现 问题 的 情况 本 身 就 不 多 ， 而 且 增 加 宕 视 孔 连接 意味 着 参数 也 会 增加 ， 而 这 会 导致 计算 
时 间 变 长 ， 所 以 有 时 候 也 会 使 用 BasicLsTMCell() 来 训练 。 使 用 LSTM 预测 以 及 生成 的 sin 
波 的 结果 如 图 5.14 所 示 。 




















O05r * 


0.0F 














0 50 100 150 200 


图 5.14 使 用 LSTM 生成 sin 波 


使 用 Keras 库 时 做 法 相同 ， 对 以 下 代码 


from keras.layers.recurrent import SimpleRNN 


model.add(SimpleRNN(n_hidden, 
kernel_initializer=weight_variable, 


input_shape=(maxlen, n_in))) 


进行 如 下 修改 即 可 。 


from keras.layers.recurrent import LSTM 
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model.add(LSTM(n_hidden, 
kernel_initializer=weight_variable, 


input_shape=(maxlen, n_in))) 


不 过 ， 分 析 Keras 内 实现 的 LSTM 类 的 源 代码 就 可 以 知道 ，Keras 不 支持 窥视 孔 连接 ”!。 


5.2.7 长 期 依赖 信息 的 训练 评估 一 一 Adding Problem 


sin 波 的 预测 是 对 时 间 序 列 长 度 为 + = 25 的 数据 也 能 充分 训练 的 短期 依赖 问题 ， 所 以 
为 了 展示 LSTM 对 长 期 依赖 信息 的 训练 能 力 ， 我 们 来 看 一 下 经 常 被 用 来 评估 模型 的 玩具 问 
题 一 一 Adding Problem。 这 是 输入 x(t) 由 信号 s(?) 和 掩 码 m(7) 这 两 类 数据 组 成 的 时 间 序 列 
数据 集 ，s(?) 是 遵循 从 0 到 1 的 均匀 分 布 的 随机 数 ， 而 m(?) 的 值 为 0 或 者 1。 不 过 m(D 只 在 
1 = 1,… ,7 了 中 随机 选择 的 两 点 上 值 为 1， 在 其 余 的 点 上 值 为 0。 表 达 式 如 下 所 示 。 






































(= | 由 ) (5.91) 





了 


s(t) ~ U(0D 
w = {0, 1}, 3 m(t) = 2 
11 
与 输入 x(Q) 相对 应 的 输出 y 的 表达 式 如 下 所 示 。 

下 
y= >, sm(?) (5.92) 

| 
输入 /输出 的 数据 示例 如 图 5.15 所 示 。 我 们 生成 NN 个 这 样 的 数据 用 于 训练 。m(?) = 1 的 时 


上 + 是 随机 选择 的 ， 既 有 可 能 出 现 ! = 10,11 这 样 相 邻 的 情况 ， 也 有 可 能 出 现 ! = 10,200 这 
羊 相 隔 很 远 的 情况 。 数 据 整 体 的 时 长 工 的 数值 越 大 ， 找 出 长 期 和 短期 依赖 性 就 越 困 难 。 























N 





就 


P16 写作 本 书 时 的 Keras 版 本 是 2.0， 此 版 本 尚未 支持 寅 视 孔 连接 ， 不 过 以 后 的 版 本 也 许 会 支持 。 实 现 类 的 源 代 
人 码 在 https://github.com/fchollet/keras/blob/master/keras/layers/recurrent.py。 
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图 5.15 Adding Problem 的 数据 示例 


下 面 用 代码 来 生成 Adding Problem 的 数据 。 首 先 定义 随机 生成 掩 码 的 函数 。 





def mask(T=200): 
mask = np.zeros(T) 
indices = np.random.permutation(np.arange(T))[:2] 
mask[indices] = 1 


return mask 


使 用 这 个 mask() 生成 的 输入 /输出 的 代码 如 下 所 示 。 


def toy_problem(N=10, T=200): 
signals = np.random.uniform(low=0.0, high=1.0, size=(N, T)) 
masks = np.zeros((N, T)) 
for i in range(N): 


masks[i] = mask(T) 


data = np.zeros((N, T, 2)) 
data[:, :, 0] = signals[:] 
dartal ee masksleal 


target = (signals * masks).sum(axis=1).reshape(N, 1) 
return (data, target) 
代码 中 的 data 对 应 输入 ，target 对 应 输出 。 


接 下 来 ， 通 过 toy_problem() 生成 N = 10000 个 T=7 = 20 的 数据 ， 然 后 进行 实验 。 将 
训练 数据 和 了 验证 数据 按 9 :1 的 比例 分 割 后 进行 评估 。 




















怠 





N = 10000 
T = 200 
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maxlen = T 


XxX, Y = toy_problem(N=N, T=T) 


N_train = int(N * 0.9) 
N_validation = N - N_train 


Xraumn valndationn Ytrann al datlionn = 


train_ test_split(X, Y, test_size=N_validation) 





模型 本 身 与 之 前 相 比 没有 变化 ， 所 以 下 面 就 用 LSTM 来 做 实验 。 这 里 采用 ( 均 方 ) 误差 函 
数 的 值 作为 验证 数据 的 评估 指标 。 如 果 模 型 不 能 在 这 个 玩具 问题 中 发 现时 间 序 列 的 关联 性 ， 
那 就 会 通过 一 直 预 测 输出 值 为 0.5 + 0.5 = 1.0 来 让 误差 最 小 。 这 时 误差 函数 的 值 为 0.1767， 
如 果 误 差 低 于 这 个 值 ， 就 说 明 能 够 训练 时 间 依 赖 信息 。 分 别 用 普通 循环 神经 网 络 ( RNN ) 
和 LSTM 进行 实验 的 结果 如 图 5.16 所 示 。 





















































0.5 
RNN 
-一 LSTM 
0.4 上 
Q3 
0.2 上 
0.1r 
0.0 1 1 1 1 
0 50 100 150 200 250 300 


图 5.16 对 Adding Problem 进行 预测 的 误差 的 变化 (RNN、LSTM ) 

















普通 循环 神经 网 络 的 训练 完全 没有 进展 ， 而 使 用 LSTM 时 ， 只 在 初期 阶段 误差 为 
0.1767 左右 时 无 法 训练 ， 等 迭代 达到 一 定 次 数 之 后 误差 急速 逼近 0， 这 说 明 长 期 和 短期 依赖 
信息 都 能 够 得 到 训练 。 




















232 


第 5 章 循环 神经 网 络 





(5RPU 


5.3.1 模型 化 


虽然 使 用 LSTM 进行 时 间 序 列 分 析 非 常 有 效果 ,但 是 它 的 参数 较 多 ， 存 在 计算 耗 时 较 
长 的 问题 。 如 果 有 一 种 模型 ， 其 性 能 与 LSTM 性 能 相当 甚至 更 佳 ， 并 且 计 算 时 间 更 短 ， 那 
就 最 好 不 过 了 。 文 献 [5] 提出 的 GRU ( Gated Recurrent Unit ) 就 是 一 个 LSTM 的 替代 算法 。 
LSTM 由 CEC、 输 入 门 、 输 出 门 和 遗 筷 门 构成 ， 而 GRU 如 图 5.17 所 示 ， 仅 由 重 置 门 〈reset 
gate ) 和 更 新 门 (update gate ) 构成 。 

















xX() h(t) 





图 5.17 GRU 的 重 置 门 和 更 新 门 








下 面 来 确定 模型 的 表达 式 。 该 模型 以 LSTM 为 基础 ， 所 以 考虑 它 的 表达 式 时 也 可 以 
采用 与 LSTM 同样 的 思路 。 设 重 置 门 的 值 为 r(1)， 更 新 门 的 值 为 z(?)， 它 们 的 表达 式 如 下 
所 示 。 





r(t) = o(Wx(t) + Uh(t — 1)+b,) (5.93) 


z(t) = o(Wix(t) + Uzh(t — 1)+ 5b;) (5.94) 





重 置 门 的 值 与 隐藏 层 1 1 的 值 相 乘 之 后 ， 与 输入 xD 一 起 被 激活 函数 了 激活 。 设 激活 后 的 
值 为 h(t)， 其 表达 式 如 下 所 示 。 


h(t) = f(Wix(t) + Un(r(t) ©O h(t — 1)) + bn) (5.95) 





另外 ， 更 新 门 的 值 被 分 割 为 z(1) 和 1 z(f)， 然 后 分 别 乘 以 h(t - 1) 和 有 (1)， 最 后 得 到 的 是 
GRU ( 隐藏 层 ) 的 输出 h(1)， 表 达 式 如 下 所 示 。 
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h(t) = z(t) Oh -1) +(1-z()) 0h) (5.96) 


这 里 得 到 的 (7) 会 作为 过 去 的 值 h(i - 1) 递归 地 用 于 GRU 的 输入 。GRU 的 反 向 传播 表达 式 
如 下 所 示 。 











PWD) {WwW UV 0 网 ee 
20 |:= |W UV 0 bo Se (5.97) 
hi) (WW, oO Uv br oo 1) 


因此 可 以 用 与 LSTM 几乎 相同 的 方法 求 出 各 参数 的 梯度 。 从 表达 式 中 也 可 以 看 出 ，GRU 有 
9 个 参数 ， 所 以 比 LSTM 的 计算 量 要 小 。 
5.3.2 实现 


GRU 的 实现 也 很 简单 ， 因 为 TensorFlow 和 Keras 都 提供 了 相关 的 API。 使 用 
TensorFlow 时 ， 要 像 下 面 这 行 代 码 这 样 ， 把 LSTMCe11() 等 蔡 换 为 GRUCe11()。 








cell = tf.contrib.rnn.GRUCell(n_hidden) 


而 使 用 Keras 库 开 发 时 要 用 它 提供 的 GRU()。 


from keras.layers.recurrent import GRU 


model.add(GRU(n_hidden, 
kernel_initializer=weight_variable, 


input_shape=(maxlen, n_in))) 


使 用 GRU 预测 和 生成 的 sin 波 如 图 5.18 所 示 。 

另外 , 用 GRU 方法 解决 Adding Problem 问题 的 结果 如 图 5.19 所 示 ， 可 以 看 出 GRU 和 
LSTM 一 样 ， 也 可 以 训练 长 期 依赖 信息 。 虽 然 和 LSTM 相 比 ，GRU 以 更 少 的 迭代 进行 了 训 
练 ， 但 需要 注意 的 是 这 只 能 说 明 在 这 个 玩具 问题 上 GRU 取得 了 较 好 的 结果 而 已 。 
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图 5.18 使 用 GRU 生成 sin 波 
0.5 T 
RNN 

— LSTM 
— GRU 

0.4 上 

0.3 上 

0.2 
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图 5.19 对 Adding Problem 进行 预测 的 误差 的 变化 (RNN、LSTM 和 GRU ) 
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在 本 章 我 们 学 习 了 循环 神经 网 络 中 用 于 处 理 时 间 序 列 数据 模型 的 算法 。 通 过 对 
过 去 隐藏 层 的 状态 递归 地 进行 反馈 ， 就 能 够 训练 时 间 序 列 的 依赖 性 。 同 时 ， 误 差 也 需 
要 回溯 到 前 面 的 时 间 进 行 反 向 传播 ， 这 种 方法 叫 作 基 于 时 间 的 反 向 传播 算法 。 可 是 ， 
如 果 只 使 用 普通 的 神经 元 构建 隐藏 层 ， 就 会 出 现 无 法 训练 长 期 依赖 信息 的 问题 
LSTM 和 GRU 通过 引入 记忆 单元 和 门 等 结构 解决 了 这 个 问题 。 

下 一 章 我 们 将 学 习 基 于 LSTM 和 GRU 的 更 加 复杂 的 模型 。 有 关 时 间 序 列 数据 处 
理 的 研究 正 处 于 一 个 非常 活跃 的 时 期 ， 现 在 已 经 出 现 了 各 种 各 样 的 应 用 模型 。 
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本 草 我 们 将 继续 学 习 循 环 神经 网 络 的 算法 。 上 一 章 学 习 的 LSTM 和 GRU 都 是 通过 把 
隐藏 层 的 神经 元 替换 为 块 来 更 有 效 地 训练 时 间 序 列 数据 ， 而 本 童 要 学 习 的 算法 则 能 够 根据 
对 时 间 序 列 数 据 的 分 析 ， 在 恰当 的 时 机 调整 网 络 的 整体 结构 。 上 有 具体 来 说 我 们 将 学 到 以 下 4 
种 模型 。 

















@ 6.1 双向 循环 神经 网 络 ( Bidirectional RNN ) 

@ 6.2 循环 神经 网 络 编码 器 - 解码 器 (RNN Encoder-Decoder ) 
@ 6.3 注意 力 (Attention ) 

@ 6.4 记忆 网 络 (Memory Network ) 





这 些 都 是 为 了 解决 分 析 时 间 序 列 数据 时 会 遇 到 的 问题 而 提出 的 方法 。 下 面 就 让 我 们 来 详细 
地 了 解 它 们 。 


全 双向 循环 神经 网 络 


6.1.1 未 来 的 隐藏 层 

前 面 我 们 学 习 的 循环 神经 网 络 都 是 从 时 刻 !- 1 同时 刻 上 传播 隐藏 层 的 状态 ， 即 以 从 过 
去 到 未 来 的 单 向 流动 为 前 提 的 模型 。 它 们 能 根据 “到 现在 为 止 的 状态 ”对 现在 还 无 法 观测 
的 未 来 进行 预测 ， 这 非常 符合 现实 生活 中 的 各 种 需求 。 不 过 在 有 些 情况 下 ， 比 如 想 要 对 现 
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有 的 时 间 序 列 数据 进行 分 类 时 ， 我 们 需要 在 清楚 从 过 去 到 未 来 ( 现在) 所 有 数据 的 状态 下 
建立 模型 。 对 于 这 类 情况 ， 比 起 单 向 考虑 从 过 去 到 未 来 的 时 间 序 列 的 依赖 关系 ， 还 是 双向 
考虑 ， 也 就 是 再 考虑 从 未 来 到 过 去 的 做 法 精度 更 高 。 基 于 这 个 思路 而 出 现 的 模型 就 是 双向 
循环 神经 网 络 ( 以 下 简称 BiRNN )。 

正如 “双向 ”一 词 所 示 ，BiRNN 会 用 “从 过 去 到 未 来 ”和 “从 未 来 到 过 去 ”两 个 方 
向 的 时 间 轴 传播 隐藏 层 的 状态 。 为 了 实现 双向 传播 ， 普 通 的 隐藏 层 的 结构 需要 稍 作 修 改 。 
图 6.1 是 BiRNN 的 概要 图 ， 从 中 可 以 看 到 两 种 隐藏 层 ， 一 种 用 来 反映 过 去 的 状态 ， 另 一 种 
用 来 反映 未 来 的 状态 。 


























输入 层 隐藏 层 输出 层 
X(t) hu y(n) 
-~ 一 


图 6.1 BiRNN 的 概要 图 
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6.1.2 前 向 、 后 向 传播 


有 了 两 种 隐藏 层 后 ， 该 如 何 使 用 双向 的 时 间 轴 来 传播 状态 呢 ? 为 了 便于 理解 ， 我 们 通 
过 图 示 来 比较 BiRNN 与 前 面 学 习 的 循环 神经 网 络 的 模型 。 按 时 刻 1-1、t 和 t+1 这 三 步 将 
模型 从 输入 到 输出 的 过 程 沿 时 间 轴 展开 时 ， 如 果 只 考虑 过 去 的 状态 ,模型 将 如 图 6.2 所 示 。 
上 一 步 中 过 去 的 隐藏 层 的 值 将 分 别传 播 到 下 一 步 。 这 里 是 用 LSTM (以 及 GRU ) 算法 将 隐 
藏 层 内 的 各 神经 元 替换 为 LSTM 块 的 。 



































y(t— 1) y(7) y(t+ 1) 


全 





h(t + 1) 








x(t— 1) x(t) x(t+1) 











图 6.2 治 时 间 轴 展开 的 循环 神经 网 络 





但 BiRNN 是 对 过 去 和 未 来 的 隐藏 层 的 状态 都 可 以 递归 进行 反馈 的 模型 ， 所 以 可 以 用 
图 6.3 来 表示 。 图 中 的 妈 () 和 思 (D) 将 在 后 面 予 以 说 明 ， 我 们 先 来 看 看 模型 的 形状 。 这 个 模 
型 虽然 看 上 去 有 些 复杂 ,但 其 实 只 是 将 图 6.1 沿 着 时 刻 1-1、t 和 t+1 展开 了 而 已 。 将 两 
种 隐藏 层 分 开 来 看 就 可 以 发 现 ，BiRNN 在 “从 输入 层 接 收 值 、 向 输出 层 传播 值 ”这 一 点 上 
与 普通 的 神经 网 络 没有 区 别 。 其 特征 在 于 各 隐藏 层 是 从 同一 个 隐藏 层 的 过 去 或 未 来 接收 值 。 
“用 于 过 去 ”的 隐藏 层 和 “用 于 未 来 ”的 隐藏 层 之 间 没 有 联系 ， 完 全 可 以 分 开 考 虑 。 从 时 间 
的 流向 来 看 ， 前 者 是 从 过 去 到 未 来 前 向 传播 值 ， 而 后 者 是 从 未 来 到 过 去 后 向 传播 值 。 为 了 
方便 理解 ， 这 里 我 们 分 别 把 它们 称 为 “前 向 层 ” 和 “后 向 层 "。 
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y(t—1) y(1) y(t + 1) 





x(t— 1) x(1) x(t+1) 


图 6.3 BiRNN 的 展开 图 





由 于 时 刻 1 的 前 向 层 和 后 向 层 的 值 可 以 分 开 考 虑 ， 所 以 将 两 个 值 按 第 头 的 方向 区 分 ， 
分 别 表示 为 及 (1) 和 有 (1)。 这 样 一 来 ， 它 们 的 正 向 传播 就 和 式 (5.4) 所 表示 的 普通 循环 神经 
网 络 的 正 向 传播 没有 区 别 了 ， 因 此 可 如 下 表示 。 





























RO) = f (Dx + Wh(t -1) +2 (6.1) 
< < 一 < 一 < 
h(ty) 过 f (Tx) + fh + 1)+ 5 (6.2) 





于 是 , 将 天 (D) 和 %(?) 组 合 到 一 起 即 可 得 到 隐藏 层 ( 整体) 的 值 AD *1， 





h(t) 
h(t) = 本 (6.3) 
h (1) 
输出 也 与 之 前 一 样 。 
y(D = Vh(t) +e (6.4) 








前 向 层 的 反 向 传播 已 经 在 上 一 章 学 习 过 了 ， 而 后 向 层 的 反 向 传播 也 只 是 把 出 现 !- 1 的 地 方 
换 成 ++1 而 已 ,表达 式 的 展开 基本 相同 。BiRNN 的 模型 虽然 结构 看 起 来 复杂 ,但 是 用 表达 
式 表示 起 来 还 是 非常 简单 的 。 


























>1 也 有 让 RD) = 五 (D) + 各 (CD) 的 情况 ， 不 过 像 本 文中 那样 把 向 量 组 合 到 一 起 的 形式 更 常见 。 
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6.1.3 MNIST 的 预测 








下 面 来 做 一 个 有 趣 的 实验 ， 看 看 能 否 通 过 用 于 时 间 序 列 数据 分 析 的 循环 神经 网 络 ( 即 
BiRNN ) 进行 图 像 识 别 。 因 为 图 像 数据 是 由 像素 的 RGB 值 或 灰 度 值 的 排列 组 合 而 成 的 ， 所 




















以 各 像素 的 值 的 顺序 ( 时 间 序 列 ) 确实 具有 实际 意 





义 。 因 此 ， 


只 要 在 数据 形式 上 下 点 功 




















夫 ， 应 该 就 能 够 对 数据 进行 分 类 了 。 这 里 我 们 使 用 之 前 实验 时 也 用 过 的 MNIST 数据 ， 通 过 


BiRNN 对 图 像 进行 预测 。 


6.1.3.1 转换 为 时 间 序 列 数据 





MNIST 中 的 数据 都 是 28 x 28 = 784 像素 的 图 像 ， 如 果 把 它 看 作 时 间 序 列 ， 那 么 各 张 图 像 
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图 6.4 MNIST 图 像 的 时 间 


1 
20 25 


序列 数据 化 











就 可 以 看 作 时 长 为 28 的 数据 。 看 一 下 图 64 也 许 更 好 理解 。 这 张 [xn(D，…… ,xn(?),… ,xn(28)] 
是 70 000 张 图 片 中 的 1 张 ，xn(7) e R” 分 别 对 应 着 图 6.4 的 各 行 。 


实现 上 没有 什么 需要 特别 考虑 的 。 我 们 之 前 在 处 理 普通 的 神经 网 络 时 做 了 以 下 ( 简单 


的 ) 正则 化 处 理 ， 


X = mnist.data[indices] 
X=X/255%0 
X= XxX - xX.mean(axis=1).reshape(len(X), 1) 
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这 次 要 在 此 基础 上 ， 增 加 以 下 处 理 。 


X = X.reshape(len(X)，28，28) # 转换 为 时 间 序 列 数据 


这 样 ， 训 练 数据 就 变 为 ( 全体 数 据 的 时 长 为 28、 输 入 维度 为 28 的 ) 时 间 序 列 数据 了 。 


6.1.3.2 ”使 用 TensorFlow 的 实现 
下 面 使 用 已 转换 为 时 间 序 列 的 MNIST 数据 ， 通 过 BiRNN 进行 预测 。 首 先 如 下 定义 模 
型 的 各 个 维度 。 

















n_in = 28 
n_time = 28 
n_hidden = 128 
n_out = 10 








这 里 的 n_time 是 各 数据 的 时 长 。 现 在 隐藏 层 的 维度 n_hidden 是 128， 不 过 换 成 其 他 数字 也 
没关系 。 相 应 地 ， 对 应 输入 和 输出 的 placeholder 如 下 所 示 。 


x = tf.placeholder(tf.float32, shape=[None, n_time, n_in]) 
t = tf.placeholder(tf.float32, shape=[None, n_out]) 


构建 模型 的 整体 流程 与 之 前 一 样 。 接 着 来 实现 inference()、loss() 和 training()。 





y = inference(x, n_in=n_in, n_time=n_time, n_hidden=n_hidden, n_out=n_out) 
loss = loss(y, t) 


train_step = training(1oss) 











在 inference() 中 需要 实现 BiRNN 的 模型 部 分 。TensorFlow 提供 了 相关 的 API， 可 以 通过 
tensorflow.contrib.rnn.static_bidirectional_rnn() 调用 。 本 次 将 事先 进行 如 下 引入 ， 








from tensorflow.contrib import rnn 











这 样 就 可 以 通过 rnn.* 调用 全 部 API 了。 
正如 前 面 所 说 ，BiRNN 的 隐藏 层 有 两 个 ,我 们 需要 分 别 定义 相应 的 层 。 下 面 就 是 它们 
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的 定义 ， 前 向 层 为 cell_forward， 后 向 层 为 cell_backward。 


cell_forward = rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 
cell_ backward = rnn.BasicLSTMCell(n_hidden, forget bias=1.0) 





虽然 这 里 用 的 是 BasicLSTMCel1()， 不 过 使 用 GRUCel1() 等 方法 也 没 问题 。 执 行 以 下 代码 可 
以 得 到 BiRNN (的 隐藏 层 ) 的 输出 。 


UPDUISA EN 
rnn.static bidirectional_rnn(cell forward, cell backward, x, 
dtype=tf.float32) 


将 这 里 得 到 的 最 后 的 输出 作为 模型 整体 的 输出 即 可 ,代码 如 下 所 示 。 


weight_variable([n_hidden * 2, n_out]) 
b = bias_variable([n_out]) 
y = tf.nn.softmax(tf.matmul(outputs[-1], W) + b) 











请 注意 权重 的 维度 不 是 n_hidden， 而 是 n_hidden * 2。 
至 于 loss() 和 training() 的 实现 , 使 用 和 之 前 完全 相同 的 方法 也 没有 问题 。 


qertlossiO es 
cross_entropy = \ 
tf.reduce mean(-tf.reduce_sum( 
to tr lao eiby valuey le lo 0 
reduction_indices=[1])) 


return cross_entropy 


def training(1oss) : 
optimizer = \ 
tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.9, beta2=0.999) 
train_step = optimizer .minimize(1oss) 


EetuUrngtranEstep 





我 们 使 用 上 面 这 些 代 码 来 进行 训练 ， 然 后 使 用 下 列 代码 来 评估 模型 对 验证 数据 的 误差 和 预 
测 精度 。 
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epochs = 300 
batch_size = 250 


init = 
sess = tf.Session() 
sess.run(init) 


n_batches = N_train // batch size 
for epoch in range(epochs): 
Xs 


fori in range(n batches).: 
start = i * batch _ size 


end = start + batch_size 


tf.global variables_initializer() 


shutilel eran Yr an 


sess.run(train®estep, feedrdict=+{ 


exaltstar tienda 
[EYE eol 
2 
val_ loss = loss.eval(session=sess 
XK validarone 


Ee Yvan ataom 


， feed dict={ 


}) 

Vval_acc = accuracy.eval(session=sess, feed dict={ 
Xvalidatron 
t: Y_validation 

1 


history['val_ loss'].append(val_loss) 


history['val acc'].append(val acc) 


print( epoch ebpochnE 


' validation loss:', val_loss, 


' validation accuracy:', val acc) 


if early_stopping.validate(val_loss): 


break 


结果 ， 对 于 验证 数据 ， 我 们 得 到 了 如 图 





6.5 所 示 的 预测 精度 和 误差 的 变化 情况 。 从 图 





中 可 
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以 看 出 训练 的 效果 不 错 。“ 将 图 像 看 作 时 间 序 列 数据 ”的 做 法 并 不 一 定 是 最 好 的 图 像 分 析 方 
法 ,但 可 以 作为 一 种 解决 方案 记 在 脑海 里 ?。 














1.0 1.4 
1.2 

.9F 
1.0 

0.8r 
410.8 
10.6 

0.75 
了 0.4 

0.6r 
10.2 

-一 v 
填写 i 上 上 上 0.0 
0 10 20 30 40 50 60 70 


图 6.5 预测 精度 ( 左 轴 ) 和 误差 ( 右 轴 ) 的 变化 情况 


6.1.3.3 ”使 用 Keras 的 实现 Ee 


Keras 以 API 的 形式 在 keras.layers.wrappers 中 提供 了 Bidirectional()。 使 用 它 来 实 
现 模型 设置 部 分 时 的 代码 如 下 所 示 。 








from keras.layers.wrappers import Bidirectional 


model = Sequential() 
model.add(Bidirectional(LSTM(n_hidden), 
input_shape=(n_time, n_in))) 
model.add(Dense(n_out, init=weight_variable)) 
model.add(Activation('softmax' )) 


model.compile(loss='categorical_ crossentropy', 


optimizer=Adam(lr=0.001, beta_1=0.9, beta_2=0.999), 
metrics=['accuracy ']) 


使 用 Keras 时 ， 只 用 Bidirectional(LSTM()) 就 可 以 支持 BIRNN， 所 以 实现 起 来 很 轻松 。 























PP2 一 般 常 用 卷 积 神经 网 络 ( convolutional neural network ) 进行 图 像 分 析 ， 不 过 本 书 中 未 涉及 此 内 容 。 
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7 循环 神经 网 络 编码 器 - 解码 器 


6.2.1 序列 到 序列 模型 


处 理 时 间 序 列 数据 时 ,它们 的 顺序 具有 重要 的 意义 。 时 间 序 列 数据 的 排列 称 为 序列 
( sequence )。 虽 然 循环 神经 网 络 是 可 以 将 序列 作为 输入 来 处 理 的 模型 ， 但 就 前 面 接触 到 的 
例子 来 看 ， 模 型 的 输出 并 不 是 序列 。 比 如 第 5 章 中 sin 波 的 例子 ,一定 时间 范 围 内 的 sin 波 
这 个 输出 ， 严 并 地 说 只 是 ++1 的 预测 的 重复 而 已 ， 不 能 说 它 是 序列 。 如 果 要 处 理 在 输入 
和 输出 都 是 序列 的 情况 下 才 有 意义 的 数据 ， 我 们 就 需要 考虑 其 他 模型 了 。 这 类 数据 的 典型 
示例 有 自动 应 答 、 英 语 到 法 语 的 翻译 等 。 输 入 和 输出 都 是 序列 的 模型 叫 作 序列 到 序列 模型 
( Sequence-to-Sequence model )。 这 是 神经 网 络 之 外 的 领域 也 在 研究 的 课题 ， 而 课题 的 核心 就 
是 研究 如 何 处 理 序 列 。 

应 用 循环 神经 网 络 就 可 以 构建 这 个 序列 到 序列 模型 ， 构 建 方法 叫 作 循环 神经 网 络 编码 
器 - 解码 器 (以 下 简称 RNN 编码 器 - 解码 器 )， 介 绍 这 个 方法 的 文献 [1] 和 文献 [2] 比较 有 
名 。 图 6.6 是 该 模型 的 概要 图 。 图 中 的 输入 是 A、B、C 和 <EOS> 这 样 的 序列 ， 输 出 是 W、 
X、_Y、Z 和 <EOS> 这 样 的 序列 。 输 入 /输出 中 都 包含 的 <EOS> 是 End-of-Sequence 的 缩 
写 ， 正 如 名 称 所 示 ， 它 代表 着 序列 的 界限 。 

























































































































































































A B C <EOS> 
图 6.6 RNN 编码 器 - 解码 器 的 概要 图 


顾名思义 ， 模 型 大 体 上 由 编码 器 ( encoder ) 和 解码 吉 (decoder ) 两 个 循环 神经 网 络 组 
合 而 成 。 编 码 咒 和 解码 器 分 别 用 于 处 理 输入 数据 和 输出 数据 。 也 就 是 说 ， 在 图 6.6 中 接收 
ABC<EOS> 的 是 编码 器 ， 输 出 WXYZ<EOS> 的 是 解码 器 。 需 要 注意 的 是 ， 解 码 器 会 将 自身 
的 输出 作为 下 一 阶段 的 输入 进行 接收 。 

接着 我 们 来 考虑 模型 的 一 般 化 。 设 输入 序列 为 (x(1),…… ,x(7T))， 输 出 序列 为 Qy(1),… ,y(7T’))。 
输入 和 输出 的 序列 长 并 不 一 定 相 同 ， 所 以 需要 注意 不 满足 7 =7 的 情况 。 设 此 时 要 求 的 值 















































6.2 ”循环 神经 网 络 编码 器 - 解码 需 
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为 条 件 概 率 p(y(1),… ,y(7T”) | x(1),… ,xz(T))。 首 先 将 输入 序列 依次 传 给 编码 器 。 编 码 融 没 
有 什么 特别 的 地 方 ， 它 的 隐藏 层 与 普通 循环 神经 网 络 的 一 样 。 























henc(t) = f (henclt — 1), x(1)) (6.5) 














f(:) 在 普通 模型 中 代表 的 是 sigmoid 函数 ， 而 在 这 里 它 一 般 代 表 的 是 (相当 于 ) LSTM 或 
GRU 的 函数 。 当 该 隐藏 层 收 到 最 后 的 输入 时 ， 输 入 数据 的 时 间 序 列 信息 将 在 此 汇总 ， 所 以 
输入 序列 (x(1),… ,x(7)) 会 由 编码 器 汇总 为 一 个 固定 长 度 的 向 量 c。 

而 解码 器 接收 的 是 前 面 的 输出 ， 所 以 在 输入 是 序列 这 一 点 上 和 编码 器 相同 ， 但 由 于 由 
编码 需 生 成 的 e 是 解码 器 的 隐藏 层 的 初始 状态 ， 所 以 隐藏 层 的 表达 式 如 下 所 示 。 
































haec(t) = f (haec(t I 1), y(t a 1), c) (0.0) 








通过 这 些 信 息 ， 模 型 整体 的 输出 可 以 表示 如 下 。 











POLO 1 ,y(t — 1),c) = g(haec(?), y(t — 1),c) (6.7) 


这 里 的 g(:) 是 输出 概率 的 函数 ， 一 般 使 用 softmax 函数 。 当 收 到 输入 序列 时 ， 得 到 输出 序 
列 的 概率 如 下 所 示 。 





过 
pO ,TT) | x(1),.… ,x(7)) = [ oo) | y(1),.… ,y(t — 1),c) (6.8) 


t=1 


因此 ， 当 个 输入 /输出 的 序列 作为 一 个 数据 集 时 ， 若 将 数据 表示 为 x := [xn(1),…… ,xn(7)] 
以 及 yn := [yn(1),… ,yn(T')]， 那么 使 得 模型 最 优 的 参数 群 9 的 表达 式 如 下 所 示 。 


Lo := max 六 3 log po(yn | xn) (6.9) 


n=1 




















通过 式 (6.8) 我 们 可 以 知道 ， 这 里 计算 对 数 是 为 了 证 概率 的 积 变 为 和 的 形式 。 虽 然 这 与 我 们 
之 前 学 习 的 神经 网 络 模型 的 表达 式 不 同 ， 但 各 个 输出 都 是 由 softmax 函数 来 表示 的 ， 因 此 
考虑 交叉 烂 误差 函数 即 可 。 

















6.2.2 简单 的 问答 系统 


6.2.2.1 设置 问题 法 的 训练 
序列 到 序列 模型 的 性 质 使 它 经 常 被 应 用 在 解决 输入 /输出 都 是 文章 的 问题 上 。 比 如 回 
答 被 提问 的 问题 时 , 输入 (问题 ) 和 输出 (回答 ) 就 都 是 文章 。 如 果 你 打算 开发 一 个 由 人 
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类 提问 、 由 机 器 回答 的 类 似 于 聊天 机 器 人 的 应 用 接口 ， 那 么 你 就 不 得 不 考虑 如 何 才能 让 
机 器 回答 得 更 自然 。 这 种 让 机 需 处 理 人 类 语言 的 尝试 称 为 自然 语言 处 理 ( natural language 
processing )。 这 是 一 个 很 大 的 研究 领域 ,长 期 以 来 除了 神经 网 络 以 外 ， 还 提出 了 很 多 解决 
问题 的 算法 。 

本 节 我 们 就 来 考虑 一 个 简单 的 问题 应 答 场 景 ， 即 “回答 加 法 计算 ”的 模型 人 ”。 以 下 就 是 
应 答 的 一 个 例子 。 











Q: 24+654 
A: 678 














输入 序列 是 24+654， 输 出 序列 是 678。 当 然 ， 如 果 是 程序 ， 就 会 事先 知道 这 是 一 个 数 
字 和 “+” 的 处 理 ， 可 以 直接 计算 并 返回 正确 结果 。 不 过 这 次 我 们 的 目的 是 在 事先 完全 不 提 
供 任 何 信息 的 情况 下 训练 机 器 对 数字 和 符号 的 处 理 ， 看 它 能 否 回答 加 法 问题 。 如 果 能 回答 ， 
就 说 明 机 器 能 够 理解 数字 和 符号 的 意思 。 虽 然 数 字 的 位 数 没有 限制 ， 但 为 简单 起 见 ， 这 里 
将 问题 限制 在 3 位 数 以 内 的 加 法 (包括 “+” 在 内 ,输入 字符 的 最 大 长 度 为 7 )。 








6.2.2.2 ”数据 的 准备 
下 面 来 看 具体 的 实现 。 首 先 如 下 定义 生成 (最 多 ) 3 位 数 的 函数 。 





def n(digits=3) : 
number = "" 
for i in range(np.random.randint(1, digits + 1)): 
number += np.random.choice(list('0123456789')) 


return int(number) 





如 有 果 只 是 简单 地 生成 加 法 问题 ,那么 只 需 使 用 这 个 n() 函数 ， 如 下 编写 代码 即 可 。 


BO 
question = '{}+{}'.format(a，b) # 例子 : 12+345 





但 假如 考虑 的 是 自然 语言 处 理 的 模型 ， 还 需要 再 下 点 功夫 。 对 于 这 个 问题 ,具体 来 说 还 要 
做 以 下 2 个 处 理 。 














3 这 也 是 一 个 玩具 问题 ,文献 [3] 的 评估 实验 对 它 进 行 了 详细 的 考察 。 
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@ 独 热 编码 
@ 填充 (padding ) 





第 1 个 指 的 是 将 字符 串 转 换 为 1-of-K 形式 的 处 理 。 由 于 神经 网 络 需 要 把 所 有 的 数据 都 转换 
为 数字 再 进行 处 理 ， 所 以 文字 也 必须 全 部 数字 化 。 这 次 的 问题 涉及 的 文字 中 大 部 分 是 数字 ， 
不 过 考虑 到 “+” 是 文字 ， 再 加 上 将 来 处 理 其 他 文字 时 的 扩展 性 ， 我 们 把 所 有 的 文字 都 通过 
1-of-K 的 形式 进行 向 量化 。 以 下 就 是 文字 向 量化 的 示例 。 












































“1” —» (100...0)7 


“2” 一 (020.…0)T 





可 
邱 
过 
Ey 
人 
坦 
六 


i 是 训练 要 用 到 的 文字 的 种 类 数 ， 这 里 不 光 有 0~9 的 数字 和 “+” 在 内 的 11 
个 文字 ,还 有 空格 “._,”, 一 共 是 12 个 文字 。 要 使 用 这 个 空白 文字 的 就 是 第 2 个 处 理 一 一 




















虽然 理论 上 RNN 编码 器 - 解码 器 可 以 处 理 可 变 长 度 的 输入 和 输出 ， 但 实际 去 实现 时 ， 
对 可 变 长 度 的 向 量 (数组 ) 的 处 理会 使 程序 变 得 复杂 。 于 是 ,为 了 让 各 向 量 的 长 度 表 面 上 
相同 ， 需 要 先 用 文字 “填充 ”好 ， 再 将 其 用 作 模 型 的 输入 和 输出 。 比 如 这 次 的 问题 ， 如 果 
是 123+456 这 种 3 位 数字 之 间 的 加 法 就 没有 问题 ， 但 如 果 是 12+34 这 样 的 计算 ,就 需要 根 
据 最 长 的 7 个 文字 在 最 后 补足 2 个 空格 ,使 它 变 成 12+34，,，， 之 后 再 转换 为 1-of-K 的 形 
式 。 同 样 地 ， 输 出 为 500+500 以 上 的 值 时 文字 长 度 为 4， 所 以 也 要 相应 对 文字 长 度 不 足 4 
的 输出 进行 填充 ， 使 输出 的 位 数 全 部 相同 。 实 现 了 填充 的 代码 如 下 所 示 。 














def padding(chars, maxlen): 


return chars + ' ' * (maxlen - len(chars)) 


刚才 的 question 的 代码 加 入 填充 处 理 后 ,将 如 下 所 示 。 


nmnputEdupntoe onpants :2 


question = '{}+{}'.format(a, b) 


question = padding(question, input_digits) 








4 虽然 这 里 是 在 字符 串 的 最 后 加 空格 ， 但 有 时 也 会 在 字符 串 的 最 前 面 加 空格 。 
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然后 ， 成 对 生成 问题 和 回答 的 整体 代码 如 下 所 示 。 


digits = 3 # 最 大 位 数 
input digits = digits * 2+ 1# 例 了 于: 123+456 
output_digits = digits + 1 # 500+500 = 1000 以 上 时 位 数 变 为 4 


added = set() 
questions = [] 
answers = [] 


while len(questions) < N: 
a, b = n(), mn() # 随机 生成 2 个 数 


pair = tuple(sorted((a, b))) 
wpanmnaddeds 
continue 


question = '{}+{}'.format(a, b) 

question = padding(question，input_digits) # 填充 不 足 的 位 
answer = str(a + b) 

answer = padding(answer，output_digits) # 填充 不 足 的 位 


added.add(pair) 
questions.append(question) 
answers.append(answer) 





本 次 的 全 部 数据 数量 N 为 20 000。 我 们 要 对 这 些 数据 进行 独 热 编码 。 首 先 定义 每 个 文字 对 
应 的 向 量 的 维度 。 





chars = '0123456789+ 
char_indices = dict((c, i) for i, c in enumerate(chars)) 


indices _ char = dict((i, c) for i, c in enumerate(chars)) 


char_indices 表示 从 文字 到 向 量 维度 的 对 应 关系 ， 而 indices_char 表示 从 向 量 维度 到 文字 
的 对 应 关系 。 使 用 它们 ， 就 可 以 像 下 面 这 样 定义 实际 传 给 模型 的 数据 。 





et 





np.zeros((len(questions), input_digits, len(chars)), dtype=np.integer) 


0 
ll 


np.zeros((len(questions), digits + 1, len(chars)), dtype=np.integer) 


for i in range(N): 
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fort cnamanenumerake(questaons 上 证 站 
Kehar lmndeeskRenamll = 
for t, char in enumerate(answers[i]): 


lehar neesRenanll = 


Xa valndation Yi ta avalndation = 


traintest split(X YY, trainesize=Notrain) 


6.2.2.3 ”使 用 TensorFlow 的 实现 

接 下 来 需要 考虑 的 是 RNN 编码 器 - 解码 器 的 具体 实现 。 首 先是 inference() 的 内 部 实 
现 。 这 次 编码 器 和 解码 需 都 使 用 LSTM。 这 样 一 来 ， 编 码 需 的 实现 就 与 普通 LSTM 的 做 法 
相同 ， 代 码 如 下 所 示 。 

















TT 




















def inference(x, n_batch, input_digits=None, n_hidden=None): 
# Encoder 
encoder = rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 
state = encoder.zero_ state(n batch, tf.float32) 
encoder_outputs = [] 


encoder_states = [] 





with tf.variable_scope('Encoder'): 
for t in range(input_digits): 
CO 
tf.get_variable_scope().reuse variables() 
(outputstate) "encoder(XB: te state) 
encoder_outputs.append(output) 


encoder_states.append(state) 








而 解码 需 的 LSTM 的 初始 状态 相当 于 编码 需 的 最 终 状 态 ， 所 以 需要 先进 行 如 下 定义 。 


def inference(x, y, n_batch, input_digits=None, n_hidden=None): 
# Encoder 
# Decoder 
decoder = rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 
state = encoder_states[-1] 
decoder_outputs = [encoder_outputs[-1]] 
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此 外 ， 解 码 需 的 输入 是 前 一 阶段 的 输出 ， 因 此 可 以 将 每 个 阶段 的 状态 表示 如 下 。 


defrinference(x yy. nbateh 
input_digits=None, output_digits=None, n_hidden=None): 
# ... 
with tf.variablesscope(’Decoder' ): 
for t in range(1, output_digits): 
fee > 
tf.get_variable_scope().reuse variables() 
(output state) = decoder(yl: tt 1 state) 
decoder_outputs.append(output) 


代码 中 的 decoder_outputs 记录 了 每 个 阶段 的 LSTM 的 输出 ， 如 果 想 获取 模型 的 输出 序列 ， 
就 需要 对 decoder_outputs 中 的 各 元 素 进 行 激 活 处 理 。 模 型 最 终 的 输出 如 下 所 示 。 





def inference(x。 yy nbatch, 
input_digits=None, output_digits=None, 


n_hidden=None, n_out=None): 


V = weight_variable([n_hidden, n_out]) 


n 
ll 


bias_variable([n_ out]) 


output = tf.reshape(tf.concat(decoder outputs, axis=1), 
[-1, output_digits, n_hidden]) 

Jinear = tfeinsum( ijk kl=>1j1", output Vc 

return tf.nn.softmax(linear) 





output = tf.reshape(...) 的 部 分 是 将 decoder_outputs 转换 为 (数据 数量 ， 序列 长 度 ， 隐藏 层 
的 维度 ) 的 处 理 。tf.einsum() 可 以 指定 进行 ee ”5。 如 果 output ee 
学 习 的 模型 一 样 星 (数据 数量 ， 隐藏 层 的 维度 ) 的 形式 ， 那 么 使 用 tf.matmul() 就 可 以 ,但 这 

我 们 不 得 不 考虑 它 与 三 阶 张 量 的 积 。 因 此 ， 要 通过 tf.einsum('ijk,kl->ijl') 来 指定 ey 
计算 时 保留 j 所 代表 的 序列 长 度 ”*$。 由 于 这 是 线性 激活 的 处 理 ， 所 以 在 最 后 进行 tf.nn. 



































由 


5 严谨 地 说 ，tf . Eee 表示 的 是 爱 因 斯 坦 求 和 约定 ( Einstein summation convention )， 它 不 仅 可 以 用 于 
tf ,matmul()， 还 可 用 于 表示 转 置 tf.transpose() 以 及 对 角 线 元 素 之 和 tf.trace() 等 各 种 张 量 的 计算 。 


6 由 于 tf.matmul() 会 进行 广播 操作 ， 所 以 实际 上 这 里 用 tf.matmul(output，V) + 5 也 可 以 得 到 相同 结 


果 。 不 过 在 三 阶 以 上 的 张 量 计算 中 ,使 用 tf.einsum() 更 有 助 于 理解 实现 和 表达 式 的 对 应 关系 ， 所 以 这 里 使 
J 了 tf.einsum()。 
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softmax() 即 可 预测 模型 的 输出 序列 。 
loss() 和 training() 的 代码 与 之 前 的 相同 。 


qet lossiOy tt 
Cross_entropy = \ 
tf.reduce mean(-tf.reduce_sum( 
to tfelog(Ctt clipaby value(y le=10° 1 0 
reduction_indices=[1])) 


return cross_entropy 


def training(1oss) : 
optimizer = \ 
tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.9, beta2=0.999) 
train_step = optimizer .minimize(1oss) 


returm trainistep 





对 accuracy() 的 实现 需要 稍 加 注意 。 之 前 的 代码 是 这 样 的 ， 





defraccuracy(y tO. 
correct_ prediction = tf.equal(tf.argmax(y, 1), tf.argmax(t, 1)) 
accuracy tf.reduce®mean(tf.cast(correct prediction, tf:float32)) 


EeeurnnEaceuliacy 


但 这 次 y 和 t 都 增加 了 序列 长 度 的 维度 ， 所 以 需要 像 下 面 这 样 在 tf.argmax() 处 修改 axis。 





correct_prediction = tf.equal(tf.argmax(y, -1), tf.argmax(t, -1)) 


接 下 来 就 和 以 前 一 样 ， 分 别 进行 下 列 定义 。 





n_in = len(chars) # 12 
n_hidden = 128 
n_out = len(chars) # 12 


x = tf.placeholder(tf.float32, shape=[None, input digits, mn _ in|]) 
t = tf.placeholder(tf.float32, shape=[None, output_digits, n_out]) 


n_batch = tf.placeholder (tf.int32) 


ynmferenceC tt nbateh 
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input_digits=input_digits, 

output_digits=output_digits， 

n_hidden=n_hidden, n_out=n_out) 
loss = loss(y, t) 


train_step = training(loss) 


acc = accuracy(y, t) 





然后 再 执行 以 下 代码 就 可 以 进行 训练 了 。 


for epoch in range(epochs): 
Xo snuffile( arn Yatralny 


for i in range(n_batches): 
start = i * batch_ size 


end = start + batch_ size 


sess.run(traine step, feedrdict=+{ 
Xs tear en 
Ca steamt emo 
n_batch: batch_size 


}) 





但 是 ,实际 在 使 用 验证 数据 测定 预测 精度 或 用 未 知 数据 进行 预测 时 ， 用 现在 的 代码 还 存在 
问题 。 求 解码 需 各 阶段 的 输出 的 代码 如 下 所 示 。 


(output state) = aecoduemGy LETREL RESLatey 





这 里 的 y[:，t-1，:] 只 使 用 了 正确 答案 的 一 部 分 ， 所 以 需要 把 验证 数据 和 未 知 数据 替换 为 
真正 的 模型 的 输出 。 也 就 是 说 ， 在 训练 之 外 ， 还 要 进行 以 下 处 理 。 











linear = tf.matmul(decoder_outputs[-1]，V) + c 
out = tf.nn.softmax(linear) 


out = tf.one hot(tf.argmax(out, -1), depth=output_digits) 


(output, state) = decoder(out, state) 


汇总 上 述 代 码 可 以 得 到 解码 需 进 行 处 理 的 代码 ， 如 下 所 示 。 


6.2 ”循环 神经 网 络 编码 器 - 解码 器 | 255 





def inference(x my, nobatch, i training, 
input_digits=None, output_digits=None, 
n_hidden=None, n_out=None): 
并 5 
# Decoder 
decoder = rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 
state = encoder_states[-1] 


decoder_outputs = [encoder_outputs[-1]] 








# 事先 定义 输出 层 的 权重 和 偏 置 
V = weight_variable([n_hidden, n_out]) 





c = bias_variable([n out]) 
outputs = [] 


with tf.variable_scope('Decoder'): 
foreteim ranse(ll outputldiets): 
ys 


tf.get_variable_scope().reuse variables() 


fatramine is Tr ue 


(output, state)="decoder(y[:,。 t=1.:], state) 





else: 
# 使 用 前 一 个 输出 作为 输入 
linear = tf.matmul(decoder outputs[=1], VD) SC 
out = tf.nn.softmax(linear) 
outputs.append(out) 
out = tf.one hot(tf.argmax(out, -1), depth=output_digits) 
(output, state) = decoder(out, state) 


decoder_outputs.append(output) 


另外 ， 用 来 表示 模型 整体 输出 的 代码 虽然 可 以 沿用 之 前 的 , 但 由 于 除 训练 之 外 我 们 已 经 在 
每 个 阶段 都 进行 了 softmax 函数 的 计算 ,所 以 这 里 也 最 好 进行 如 下 的 判断 ， 避 免 重复 计算 。 





det inference(xe9y nbatehn stralnine. 
input_digits=None, output_digits=None, 
n_hidden=None, n_out=None): 
六 5 
Tsetrarmine is nr ue 


output = tf.reshape(tf.concat(decoder_ outputs, axis=1), 
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[-1, output_digits, n_hidden]) 


linear = tf.einsum('ijk,kl->ijl', output, V) + < 
return tf.nn.softmax(linear) 

else: 
# 求 最 后 的 输出 
linear = tf.matmul(decoder outputs[=1], Vc 
out = tf.nn.softmax(linear) 


outputs.append(out) 


output = tf.reshape(tf.concat(outputs, axis=1), 
[-1, output_digits, n_out]) 
return output 


[eg 
入 


单一 来 ， 训 练 之 外 的 情况 就 也 考虑 到 了 ， 模 型 的 实现 ”” 也 完成 了 。 
于 是 ， 最 终 的 设置 模型 的 代码 如 下 所 示 。 








X 
i 


tf.placeholder(tf.float32,. shape=[None, input®odieits, nein]) 


tf.placeholder(tf.float32, shape=[None, output_ digits, n_out]) 
n_batch = tf.placeholder (tf.int32) 
is_training = tf.placeholder(tf.bool) 


y = inference(x, t, n_batch, is_training, 
input_digits=input_digits, 
output_digits=output_ digits, 


n_hidden=n_hidden, n_out=n_out) 


训练 模型 的 代码 如 下 所 示 。 


for epoch in range(epochs): 
XY shutfileC eral Ytralny 


for iin range(nibatches): 
start = i * batch_ size 


end = start + batch_ size 





PP7 虽然 TensorFlow 在 版 本 1.0 中 提供 了 tf.contrib.legacy_seq2seq() 的 API， 不 过 正 像 它 名 字 中 的 legacy 所 
示 ， 它 将 在 版 本 1.1 中 被 废除 ， 所 以 这 里 没有 使 用 。 
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sess.run(train_step，feed_dict={ 
x Xx [start:end], 
t: Y_[start:end], 
n_batch: batch_size， 
is_training: True 


网) 


Vval_loss = loss.eval(session=sess, feed dict={ 


1 


valdavone 
Gevalia tone 
n_batch: N_validation, 


is_training: False 


val acc = acc.eval(session=sess, feed dict={ 


动 


x: X_validation, 
Govanidat Lone 
n_batch: N_validation, 


is_training: False 





虽然 在 val_loss 和 val_acc 中 出 现 了 Y_validation， 但 需要 注意 的 是 它 只 能 用 于 loss() 和 








accuracy() 的 计算 ， 不 能 用 在 inference() 中 。 根 据 以 上 内 容 进 行 实际 地 训练 和 预测 后 ， 我 
们 得 到 了 如 图 6.7 所 示 的 结果 ， 可 以 看 出 模型 已 经 学 到 了 各 文字 的 含义 。 
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图 6.7 预测 精度 ( 左 轴 ) 和 误差 ( 右 轴 ) 
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我 们 试 着 在 每 次 迭代 中 ， 从 验证 数据 随机 选 出 10 个 问题 ， 以 Q&A 的 形式 进行 输 ! 
用 于 输出 的 代码 如 下 所 示 。 


orepoe 





h in range(epochs): 


# 训练 的 代码 


# 


# 从 验证 数据 中 随机 选择 问题 并 予以 回答 


for 











in range(lo) 
index = np.random.randint(0, N_validation) 
question = X_validation[np.array([index])] 
answer = Y_validation[np.array([index])] 
prediction = y.eval(session=sess, feed_ dict={ 
xX question 
# t: answer, 
四 Eee 
is_training: False 
je 
question = question.argmax(axis=-1) 
answer = answer.argmax(axis=-1) 
prediction = np.argmax(prediction, -1) 


ql oun(indicesichari fiom oquestrongioD 


oy 
1 


= Join(inarcesichartl ior nanswerlol) 
p= ounm(indicesecharEuior mm predetonno 


Emma 0 
naQS 9 
puunt(e AS ep 
prune EREeiidE 
if a == p: 

pun 
else: 

[olan le 


执行 后 发 现 ， 前 50 次 近 代 中 的 准确 率 还 很 低 ， 错 误 很 明显 。 


Q: 1+773 
RE 
Te 

Q: 430+16 


A: 457 


b。 
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JE 

Q 8+665 
A: 663 
EE 

Q 6+944 
A: 950 
El 

Q Bl 
A: S77 
ESE 

Q 区 On7S 
A: 144 
EE 

OF 952+966 
A: 1849 
EE 

OF 0+2 
A: 凤 
El 

Q 945+0 
A: 946 
EE 

Q 3+606 
A: 609 
JE 


而 当 和 迭代 次 数 达 到 200 之 后 ， 基 本 上 能 够 毫 无 错误 地 进行 加 法 运算 了 。 


Qa 
A: -872 
EL 

Q: 91+323 
A: 414 
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ED 

(0 891+51 
A: 四 本 如 
TYE3 

‘0 B54 
A: 406 
TAG- 

(0 9+276 
A 2895 
AG 

(0 640+74 
A: 714 
/AE 

Qe S92 
A: 599 
TAB 

QE 6+820 
A: 826 
ES 

QO 35+90 
A: ‘2 
AE 

Q: 24+654 
A: 678 
AE 


6.2.2.4 使 用 Keras 的 实现 
使 用 TensorFlow 时 我 们 用 is_training 来 区 分 训练 和 测试 〈 验 证 )， 然 后 分 别 进行 处 理 ， 
而 使 用 Keras 时 用 以 前 的 代码 即 可 实现 RNN 编码 器 - 解码 器 择 。 设 置 模型 的 代码 如 下 所 示 。 








model = Sequential() 


8 在 Keras 的 GitHub 代码 库 中 有 一 个 相同 的 实现 示例 ， 请 参考 。 
https://github.com/fchollet/keras/blob/master/examples/addition_rnn.py 
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# Encoder 


model.add(LSTM(n_hidden, input_shape=(input_digits, n_in))) 


# Decoder 
model.add(RepeatVector(output_digits)) 
model.add(LSTM(n_hidden, return_sequences=True)) 


model.add(TimeDistributed(Dense(n_out))) 

model.add(Activation('softmax' )) 

model.compile(loss='categorical _ crossentropy', 
optimizer=Adam(lr=0.001, beta_1=0.9, beta_2=0.999), 


metrics=['accuracy ']) 








需要 编写 的 代码 只 有 这 些 。 不 过 事先 需要 进行 RepeatVector 和 TimeDistributed 的 导入 ， 
如 下 所 示 。 


from keras.layers.core import RepeatVector 


from keras.layers.wrappers import TimeDistributed 


RepeatVector(output_digits) 用 于 将 输入 重复 多 次 ， i 的 最 大 序列 长 度 ， 而 
TimeDistributed(Dense(n_out)) 则 负责 沿 着 时 间 序 列 对 层 进行 连接 的 处 理 。 在 TensorFlow 
中 输出 的 序列 是 用 tf.concat() 和 tf.einsum() 等 实现 的 ， 而 Keras 提供 的 这 些 方法 ， 可 以 
让 使 用 者 基本 上 无 须 考虑 序列 的 存在 ， 即 可 定义 其 他 层 *?。 


注意 力 模型 


6.3.1 时 间 的 权重 


上 一 节 讲 解 的 RNN 解码 咒 - 编码 器 虽然 是 具备 一 定性 能 的 模型 ， 但 仔细 考虑 就 会 发 
现 其 内 部 执行 了 一 些 无 用 的 处 理 。 从 图 6.6 可 以 看 出 ,输入 序列 所 拥有 的 “上 下 文 ”信息 
全 部 汇总 在 编码 器 和 解码 器 的 边界 部 分 ， 即 〈 固 定 长 度 的 ) 向 量 e 中 。 但 是 ， 对 于 各 个 时 
刻 来 说 ， 我 们 应 该 重视 其 过 去 的 哪个 时 刻 并 不 相同 ， 所 以 完全 没有 必要 将 输入 序列 所 拥有 






































Pp9 严谨 地 说 ， 理 论 上 考虑 的 模型 与 本 次 使 用 Keras 实现 的 模型 在 形式 上 有 些 不 同 。 比 如 ， 使 用 Keras 实现 的 模 
型 中 ， 每 个 阶段 的 编码 器 的 输出 都 会 成 为 解码 器 的 输入 。 不 过 ， 想 一 想 模 型 的 组 成 我 们 就 应 该 知道 ， 尽 管 传 
播 方式 发 生 了 改变 ， 但 使 用 Keras 实现 的 模型 对 训练 的 进展 并 没有 影响 。 
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的 信息 都 汇总 在 一 个 向 量 中 。 如 果 我 们 能 够 设置 一 个 既 考 虑 了 时 刻 权重 又 能 根据 不 同 的 时 
刻 动 态 变 化 的 向 量 ， 应 该 就 能 得 到 更 好 的 模型 。 

基于 这 个 思路 得 到 的 就 是 注意 力 模型 。 它 本 来 是 由 文献 [4] 提出 的 RNN 编码 融 -解码 
器 的 改进 版 ”0"， 之 后 又 出 现 了 一 些 保留 了 “考虑 时 间 权 重 ” 这 一 共通 原则 的 变 体 模 型 ， 并 
被 应 用 到 了 RNN 编码 需 - 解码 需 之 外 的 地 方 。 我 们 先 来 看 一 下 文献 [4] 中 的 模型 。 图 6.8 
是 该 模型 的 概要 图 。 





























y(t—1) y(1) 






haec (t —1) haec (人 


henc(T) 


X(]) x(2) x(T) 





图 6.8 引入 了 注意 力 机 制 的 RNN 编码 器 - 解码 需 概 要 图 


接收 输入 序列 的 编码 器 与 之 前 的 结构 相同 ”二 ， 而 解码 器 却 有 所 改变 ， 开 始 在 各 时 刻 接 
收编 码 需 的 和 输出。 我 们 从 表达 式 层 面具 体 地 来 看 一 下 。 原 本 ， 解 码 咒 的 表达 式 和 式 (6.6) 一 
样 ， 如 下 所 示 。 





haec(t) = f(haec(t 一 1 一 lc) (6.10) 








>10 参考 文献 [4] 中 并 未 使 用 “注意 力 ”( attention ) 这 一 名 称 。 
P11 文献 [4] 为 了 提高 精度 ， 在 编码 器 中 使 用 了 BiRNN。 
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不 过 ,引入 注意 力 机 制 后 ， 表 达 式 中 的 ec 就 变 成 了 随时 刻 t 变 化 的 向 量 ， 即 c = c(?)， 因 此 
表达 式 变化 如 下 。 


haec(t) = f(haeclt 是 1), y(t = 1), c(t)) (6.11) 


这 里 的 c(D 必须 是 考虑 了 时 间 权 重 的 表达 式 ， 不 过 简单 起 见 ， 也 可 以 写成 以 下 形式 。 





了 
6 鸭 二 本 人 enet (6.12) 
+ 二 | 








这 里 的 gr(?) 表示 的 是 各 编码 需 的 值 传 到 解码 器 的 百分比 ( 即 权 重 ) ar(D 表示 的 是 百分比 ， 
也 就 意味 着 它 的 和 为 1， 所 以 可 用 下 面 的 wr(?) 


Wzr 人 (人 :二 f (haeclt 一 1 hone(7T)) (6.13) 
将 其 表示 如 下 。 
Q(t) = I = softmax(wz(7)) (6.14) 
>》,exp(wo(D) 
ps1 




















这 里 的 wr(?) 表示 的 是 应 该 进行 最 优化 〈 正 则 化 之 前 ) 的 权重 ， 设 函数 /的 各 输入 haec (1 1)、 
henc(T) 以 及 整体 的 权重 分 别 为 Wa、Ua 和 mw， 再 将 wr(D) 定义 如 下 ， 


wr(f) = f (haec(t — 1), henc(7)) (6.15) 


= yl tanh(Wahaeclt — 1) + Uahenc(T)) (6.16) 





这 样 就 可 以 计算 各 表达 式 的 梯度 ， 也 能 和 之 前 一 样 应 用 随机 梯度 下 降 法 了 。 这 个 机 制 虽然 
叫 作 注意 力 ， 但 它 只 是 用 表达 式 表示 了 如 何 将 时 间 的 权重 反映 到 模型 上 这 个 想法 而 已 。 





6.3.2 LSTM 中 的 注意 力 机 制 


图 6.8 展示 的 模型 通过 修改 网 络 各 层 之 间 的 连接 方式 ， 将 时 间 的 权重 反映 到 网 络 中 ， 
那么 修改 隐藏 层 内 各 单元 的 连接 ， 是 否 也 能 建立 同样 的 结构 呢 ? 比如 考虑 某 个 LSTM 块 的 
会 出 h(t)， 它 的 表达 式 是 有 (7) = /CC- TD,zGD))。 仔 细 想 想 就 会 发 现 ， 该 LSTM 块 和 RNN 
编码 器 - 解码 器 的 形式 相同 ， 也 是 前 一 个 时 刻 上- 1 中 包含 了 之 前 所 有 的 时 间 序 列 信息 。 如 
果 单 元 本 身 能 够 考虑 时 间 的 权重 ， 那 么 就 可 以 在 许多 模型 中 引入 注意 力 机 制 了 。 实 际 上 ， 
这 也 可 以 采用 之 前 在 网 络 层 之 间 引 入 注意 力 机 制 时 的 做 法 来 实现 ， 比 如 文献 [5] 就 提出 了 
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在 (没有 窥视 孔 连 接 的 ) LSTM 中 引入 注意 力 机 制 的 模型 。 


传统 的 LSTM。 





如 同 我 们 在 第 $ 章 探讨 过 的 那样 ， 设 时 刻 上 的 LSTM 的 输入 门 、 


下 面 我 们 就 来 看 一 下 如 何 修改 


输出 门 、 遗 忘 门 以 及 输 


入 激活 后 的 值 为 i()、o()、f(?) 和 a(?)， 将 它们 整合 起 来 的 表达 式 如 下 所 示 ( 简化 写法 )。 


i(1) (on W: Ui 
0 (1) oO . Wo Uo 
f(D (ea Wr Ur 
alt) tanh Wa Us, 


此 外 ，CEC 的 值 c(?) 可 以 用 这 些 值 表示 如 下 。 


x(1) 
h(t -1) 
了 1 


c(t) = it) Oa(lt)+ f(t) Oc(t—1) 


(6.17) 


(6.18) 


我 们 需要 把 式 (6.17) 和 式 (6.18) 中 的 h(t 一 1) 和 c(t 一 1) 分 别 改 为 考虑 了 时 间 权 重 的 项 h(1) 





和 6(1)。 为 了 实现 这 一 点 ,我们 使 用 与 式 (6.12) 同样 的 做 法 ,简单 地 增加 权重 信息 ， 然 后 像 
下 面 这 样 引入 与 过 去 的 时 间 7t 相应 的 权重 比例 gr(?t) 即 可 。 
~ 1 一 1 
h(D) _ h(7) 
1 0 = 阳 [: 中 (6.19) 
这 里 的 gi(?) 与 式 (6.14) 相同 ， 可 如 下 表示 。 
Q(t) = softmax(wz(7)) (6.20) 
而 wr(?) 这 次 需要 依赖 zx(D) 、 jd - 1 和 jzr) 这 3 个 值 ,所 以 它 的 表达 式 如 下 所 示 。 
wi(t) := g (x(0), ht — D,h(7)) (6.21) 
= 7 tanh (Wx(?) + Wah(t — 1)+ Wnh(n)) (6.22) 
而 得 到 以 下 表达 式 ， 
i(1) (en W: Ui 
on | ow wv li ee 
f0) o We Us ] 
4 人) tanh Wa Ua ba 
c(t) =i(t) Oo a(t) + f(t) 00) (6.24) 


这 样 就 成 功 在 LSTM 中 引入 了 注意 力 机 制 。 
在 TensorFlow 中 ， 这 个 结构 被 





时 装 为 了 AttentionCellWwrapper()。 


比如 在 加 法 的 训练 
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时 ， 编 码 需 可 以 如 下 实现 。 


encoder = rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 


不 过 ， 如 果 再 把 它 像 下 面 这 样 用 AttentionCellwrapper() 围 起 来 ， 





encoder = rnn.AttentionCellWrapper (encoder, 
input_digits, 


state_is_tuple=True) 


就 可 以 支持 注意 力 模 型 了 。 解 码 需 的 处 理 与 此 相同 。 


le 天 加 记忆 Wy 络 


6.4.1 记忆 外 部 化 


我 们 之 前 接触 到 的 LSTM 和 GRU 等 循环 神经 网 络 的 模型 都 是 在 单元 内 部 保留 时 间 序 
列 信息 ， 并 基于 这 些 信息 来 进行 预测 的 。 不 过 这 些 模型 在 训练 (非常 ) 耗 时 的 算法 时 ， 要 
花费 非常 长 的 时 间 ， 而 且 由 于 过 去 的 信息 都 汇总 在 一 个 向 量 中 ， 所 以 存在 无 法 有 针对 性 地 
留 记忆 的 问题 。 在 引入 注意 力 等 机 制 后 ,虽然 模型 能 够 学 到 与 过 去 的 哪些 时 间 有 关 的 信 
息 ,但 依然 存在 随 着 参数 数量 的 增加 ， 训 练 的 时 间 越 来 越 长 ， 所 以 最 终 能 够 记忆 的 时 间 长 
度 依然 有 限 的 问题 。 
为 了 解决 这 个 问题 而 出 现 的 模型 就 是 记忆 网 络 ( 以 下 简称 MemN )。 循 环 神经 网 络 会 
在 训练 过 程 中 将 时 间 的 依赖 信息 保存 在 网 络 内 部 ， 也 就 是 说 会 在 单元 内 部 保存 信息 ， 因 此 
它 在 训练 结构 上 存在 问题 。 而 MemN 则 是 通过 将 信息 保存 在 外 部 存储 来 提高 训练 效率 的 做 
法 。 在 外 部 存储 保存 信息 的 网 络 ， 最 早 由 文献 [6] 和 文献 [7] 提出 。 二 者 几乎 发 表 于 同一 时 
明 ， 由 于 应 用 的 问题 不 同 ， 所 以 提出 的 模型 也 有 一 些 不 同 , 但 基本 结构 都 可 以 用 图 6.9 来 
表示 。 只 要 事先 构建 好 外 部 存储 ， 并 对 其 进行 恰当 的 读 写 ， 那 么 无 论 给 予 什么 样 的 输入 ， 
模型 都 应 该 可 以 正确 地 输出 。 可 以 说 MemN 是 训练 如 何 对 外 部 存储 进行 读 写 的 方法 。 人 在 
思考 问题 时 ， 会 根据 事先 存在 脑 内 的 记忆 来 求解 ， 也 许 MemN 比较 接近 人 脑 的 形态 。 
MemN 在 控制 读 写 记 忆 的 部 分 可 以 使 用 普通 的 前 馈 神 经 网 络 ， 与 使 用 循环 神经 网 络 相 
比 计算 量 大 幅 减少 。 虽 然 文献 [7] 中 也 提 到 过 使 用 LSTM 可 以 提高 精度 ， 但 需要 注意 就 单 
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纯 的 MemN 来 说 ， 其 本 身 并 不 是 循环 神经 网 络 。 











输入 输出 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
2 t 了 | > 
| | 
| | 
| | 
| | 
| | 
RE | | 一 -和 
| | 
| | 
| | 
写 人 读 取 
| | 
| | 
| 外 部 存储 | 
| | 
| | 


图 6.9 记忆 网 络 的 概要 图 


6.4.2 ”应 用 于 问答 系统 


6.4.2.1 bAbi 任 务 

在 确定 MemN 的 表达 式 之 前 ， 我 们 先 通 过 bAbi 任务 "来 了 解 一 下 MemN 可 以 应 用 于 
什么 样 的 问题 。bAbi 任务 是 由 Facebook 人 工 智 能 研究 院 ( Facebook AI Research，FAIR ) 发 
布 的 数据 集 ， 汇 总 了 以 问答 为 核心 的 文本 形式 的 数据 。 在 训练 加 法 计算 时 我 们 的 任务 是 下 
面 这 样 的 一 问 一 答 ， 
































Q. 123+456 
A. 579 


而 bAbi 中 的 任务 却 像 下 面 这 样 ， 在 阅读 由 一 些 句 子 组 成 的 故事 之 后 ， 再 对 相关 提问 进行 
回答 。 





P12 http://fb.ai/babi 
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Mary moved to the bathroom. 
John went to the hallway. 
Q. Where is Mary? 

A. bathroom 





上 面 的 例子 是 其 中 最 简单 的 任务 了 ， 数 据 集中 还 有 像 下 面 这 样 的 长 文章 的 阅读 任务 '。 





sandra travelledito thedoffice: 
Sandra went to the bathroom. 
Mary went to the bedroom. 

Daniel moved to the hallway. 
John went to the garden. 

John’ travelled to the office. 
Danuelenourneyed tontheadedsoom 
Daniel travelled to the hallway. 
John went to the bedroom. 

yohnm traveldedito theroffice. 

Q. Where is Daniel? 

A. hallway 











当然 ， 基 于 故事 的 问题 也 是 时 间 序 列 数据 ， 使 用 一 般 的 LSTM 也 可 以 完成 训练 。 只 是 
故事 越 长 ， 训 练 就 越 困 难 。 而 如 果 使 用 MemN， 即 使 故事 变 长 也 可 以 高 效 地 进行 训练 。 





6.4.2.2 ”模型 化 

如 何 对 bAbi 任务 进行 MemN 的 模型 化 呢 ? 让 我 们 以 文献 [8] 提出 的 模型 为 基础 考虑 此 
问题 。 模 型 的 概要 如 图 6.10 所 示 。 虽 然 此 图 与 图 6.9 看 起 来 不 同 ， 但 二 者 在 把 故事 信息 记 
录 到 外 部 存储 ， 并 对 照 问题 和 记录 的 信息 进行 输出 ( 回答 ) 这 一 点 上 采用 了 相同 的 结构 。 
不 过 这 里 的 模型 有 一 个 特点 ， 那 就 是 将 故事 分 别 存储 在 了 用 于 输入 和 用 于 输出 的 两 个 外 部 
存储 中 。 



































>13 这 里 考察 的 都 是 基于 叙述 的 事实 进行 回答 的 任务 ， 而 除了 这 种 任务 之 外 ，bAbi 还 提供 了 数 数 问题 、 推 论 问 
题 等 20 种 任务 。 本 书 只 涉及 其 中 的 任务 1。 
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图 6.10 MemN [8] 的 概要 图 











下 面 来 详细 地 看 一 下 这 个 模型 。 首 先是 将 故事 保存 在 两 个 外 部 存储 的 部 分 ， 它们 都 使 
用 了 名 为 词 宇 入 (word embedding ) 的 算法 。 该 算法 会 将 作为 记号 简单 处 理 过 ( 即 经 过 独 热 
编码 ) 的 单词 向 量 映射 到 考虑 了 单词 含义 的 向 量 上 。 独 热 编码 后 ， 相 邻 的 向 量 间 值 为 1 的 
两 个 元 素 体现 不 出 任何 关联 ， 但 是 将 各 元 素 映射 到 允许 值 为 0 和 1 之 外 的 浮 点 数 的 向 量 后 ， 
就 能 达到 为 含义 相近 的 单词 取 相 似 的 值 的 效果 。 应 用 了 词 伐 入 的 知名 工具 有 word2vec* 1 ， 
使 用 它 就 可 以 像 vector(' 巴黎 ') - vector(' 法国 ') + vector(' 日 本 ') = vector(' 东京 ') 这 
样 进行 单词 向 量 间 的 计算 。 最 简单 的 词 谋 入 算法 是 将 经 过 独 热 编码 的 向 量 与 权重 矩阵 相 乘 ， 


























P14 https://code.google.com/archive/p/word2vec/ 
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也 就 是 将 其 作为 神经 网 络 的 层 来 表示 ， 然 后 通过 训练 对 这 个 权重 进行 最 优化 。 在 这 次 的 模 
型 中 ,我 们 使 用 词 般 入 算法 的 权重 和 矩阵 4 和 C 将 故事 x; 分 别传 到 用 于 输入 的 存储 mi; 和 用 
于 输出 的 存储 ci 中。 然后 通过 训练 对 将 故事 保存 为 记忆 的 方法 进行 最 优化 。 

既然 对 故事 部 分 应 用 了 词 人 入， 那么 对 输入 的 问题 gq 也 同样 需要 应 用 词 退 入 。 设 这 里 
使 用 的 权重 和 矩阵 为 BB， 传 播 后 的 向 量 为 u。 将 这 个 与 用 于 输入 的 外 部 存储 {1mi} 相 乘 ， 即 
可 取出 相应 的 记忆 。 每 个 记忆 的 匹配 度 都 可 以 用 wTmi 求 出 ， 所 以 像 下 面 这 样 求 出 pi， 


























Di := softmax (em (6.25) 


就 可 以 用 概率 来 表示 匹配 度 了 。 青 进一步 将 pi 与 用 于 输出 的 外 部 存储 {ci} 相 乘 ， 就 可 以 从 
记忆 中 得 到 输出 o。 其 表达 式 如 下 所 示 。 


o := 2 Pi (6.26) 





这 里 得 到 的 o 还 是 用 艇 入 形式 表达 的 向 量 ,， 所 以 为 了 获得 最 终 的 回答 文本 的 形式 ,需要 使 
用 以 下 表达 式 求 出 预测 的 回答 &。 


0 = softmax(W(o + u)) (6.27) 








以 上 就 是 模型 整体 的 流程 。 该 模型 中 的 表达 式 都 可 以 微分 ， 又 因为 式 (6.27) 是 softmax 函 
数 ， 所 以 和 前 面 讲 过 的 一 样 ， 可 以 通过 交叉 信 误差 函数 来 使 用 随机 梯度 下 降 法 。 

















6.4.3 ”实现 


下 面 我 们 来 思考 图 6.10 所 表示 的 模型 的 实现 。 使 用 Keras 实现 的 示例 代码 在 GitHub 上 
已 公开 5， 所 以 我 们 在 这 个 代码 的 基础 上 ， 看 一 下 数据 的 预 处 理 以 及 使 用 TensorFlow 库 的 
实现 方法 。 


6.4.3.1 数据 的 准备 

bAbi 的 数据 公布 在 https:/s3.amazonaws.comy/text-datasets/babi_tasks_1-20_v1-2.tar.gz 上 ， 
我 们 先 从 这 里 下 载 数据 ”6 ”7。 文 件 的 格式 是 tar， 在 下 面 的 代码 中 指定 下 载 文件 所 在 的 目 
录 ， 获 取 文 件 对 象 。 





P15 https://github.com/fchollet/keras/blob/master/examples/babi_memnn.py 
P16 也 可 以 从 http://www.thespermwhale.com/jaseweston/babi/tasks_1-20_v1-2.tar.gz 下 载 。 


P17 使 用 utils.data 中 的 get_file() 函数 能 够 自动 下 载 文件 ， 这 里 省 略 有 关 实 现 的 详细 内 容 。Keras 在 from 
keras.utils.data_utils import get_file 中 提供 了 同样 的 API。 
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import tarfile 


tar = tarfile.open(path) 





本 次 使 用 的 任务 1 的 训练 数据 和 测试 数据 包含 在 以 下 文件 中 ， 


@ tasks_1-20_v1-2/en-10k/qal_single-supporting-fact_train.txt 


@ tasks_1-20_v1-2/en-10k/gqal_single-supporting-fact_test.txt 


所 以 使 用 以 下 代码 来 简化 实现 。 





challenge = 'tasks_1-20_v1-2/en-10k/qa1l_single-supporting-fact_{}.txt'" 
train_stories = get_stories(tar.extractfile(challenge.format('train'))) 


test_stories = get_stories(tar.extractfile(challenge.format('test'))) 





这 里 定义 的 get_stories() 是 将 各 任务 转化 为 故事 、 问 题 或 回答 形式 的 函数 。 文 件 内 容 原 
本 的 形式 是 像 下 面 这 样 ， 在 一 系列 的 故事 中 随机 插入 问题 。 








et 


[b'1 Mary moved to the bathroom.\n', 

b'2 John went to the hallway.\n', 

b'3 Where is Mary? \tbathroom\t1\n', 

b'4 Daniel went back to the hallway.\n', 
b'5 Sandra moved to the garden.\n', 

b'6 Where is Daniel? \thallway\t4\n', ...] 














通过 get_stories(), 我 们 将 其 整理 为 1 个 问题 对 应 1 个 故事 的 形式 。 与 此 同时 ， 如 同 我 们 在 
[法 的 训练 时 将 问题 分 解 为 一 个 个 文字 的 做 法 ， 这 里 将 文章 分 解 为 单词 的 形式 并 进行 保存 。 











EAMarye novede ee to the ee bathroom 
ohme wen ctor tne halliway ee | 
Whene ee Ls Mary > bathroom 

QO Mary ee movede to the bathroom ee 
-ohn WenG ee to the hallwvavy RE 和 

Daniel went em back ee to thee hallway ee 
esandray ee movedee toe ne eandenee ul 
uhene ee Se Daniel ee lena Wey 
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这 里 得 到 的 数据 内 部 依然 是 字符 串 ， 因 此 需要 把 它 替 换 为 数值 。 而 且 还 必须 像 加 法 训 
练 时 那样 ， 对 它们 进行 填充 处 理 ， 所 以 我 们 先 求 出 单词 数 以 及 故事 和 问题 文章 的 最 大 长 度 。 








vocab = set() 

Fforestory qe answer mn tramistories tr testlstorles: 
vocab |= set(story + q + [answer]) 

vocab = sorted(vocab) 

vocab_size = len(vocab) + 1 # 用 于 填充 +1 


story_maxlen = \ 

max(map( lena Co toreoeeee mn tonEskolmies testistornles) 
question maxlen = \ 

max(map( lena Co ftom x mn tamnistormles testlstorles) 


使 用 上 面 这 段 代码 定义 函数 ， 





def vectorize_stories(data, word_indices, story_maxlen, question maxlen): 


X= 
Ql 
AS= 


for story, question, answer in data: 





x [word_indices[w] for w in story] 

q = [word_indices[w] for w in question] 

a = np.zeros(len(word_indices) + 1) # 用 于 填充 +1 
a[word_indices[answer]] = 1 

X.append(x) 

Q.append(q) 

A.append(a) 


return (padding(X, maxlen=story_maxlen), 
padding(Q, maxlen=question_maxlen), np.array(A)) 








然后 通过 以 下 代码 即 可 得 到 数值 化 后 的 单词 向 量 。 














word_indices = dict((c, i + 1) for i, c in enumerate(vocab)) 
inputs_train, questions_train, answers_train = \ 
vectorize_stories(train_ stories, word_indices, 
story_maxlen, question_maxlen) 


inputs test, questions test,， answersotest=N 
Vectorize_ stories(test_ stories, word_indices, 
story_maxlen, question_maxlen) 
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需要 注意 的 是 这 次 没有 使 用 1-of-K 形式 来 表示 故事 的 数据 ， 而 是 直接 将 单词 的 索引 用 作 元 
素 了 。 





6.4.3.2 ”使 用 TensorFlow 的 实现 
模型 的 实现 与 之 前 一 样 ， 由 inference()、loss()、training() 这 3 个 函数 构成 。 我 们 
从 inference() 开始 看 起 。 首 先 定 义 用 于 机 入 的 权重 和 矩阵。 





def inference(vocab_size, embedding dim, question_ maxlen): 
Rs 
A = weight_variable([vocab_size, embedding_dim]) 
B = weight_variable([vocab_size, embedding_ dim]) 
(& 


= weight_variable([vocab_size, question maxlen]) 


实际 在 做 般 入 处 理 时 ， 由 于 TensorFlow 提供 了 tf.nn.embedding_lookup()， 所 以 我 们 可 以 
像 下 面 这 样 用 这 个 API 对 故事 和 问题 进行 艇 入 。 





defrvinference(x、 qvocab®size embedding dim, questionMmaxlen): 
#... 
m= tf.nn.embedding_lookup(A, x) 


u = tf.nn.embedding_lookup(B, 9q) 
c= tf.nn.embedding lookup(C, x) 








接 下 来 是 式 (6.25) 所 表示 的 pi 的 实现 ， 由 于 这 里 的 问题 q 是 单词 序列 ( 时间 序列 )， 所 以 用 
tf.einsum() 来 代替 tf.matmul()。 


p = tf.nn.softmax(tf.einsum('ijk,ilk->ijl', m, u)) 


由 于 这 个 修改 ， 式 (6.26) 中 的 o， 以 及 式 (6.27) 中 o +u 部 分 的 实现 也 会 与 表达 式 略 微 不 同 ， 
其 代码 如 下 所 示 。 


= tf add(pee) 


0 
o = tf.transpose(o, perm=[0, 2, 1]) 


ou = tf.concat([o, u], axis=-1) 



































接 下 来 ,文献 [8] 的 做 法 是 按照 式 (6.27) 定义 权重 矩阵 WW， 然 后 通过 普通 的 前 馈 神 经 网 
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络 进行 训练 ， 而 同样 进行 了 bAbi 任务 实验 的 文献 [6] 却 通 过 LSTM 进行 训练 ， 提 高 了 训练 
的 精度 。 因 此 ， 我 们 这 次 在 输出 部 分 也 使 用 LSTM。 输 出 部 分 的 流程 图 如 图 6.11 所 示 。 实 
现 的 代码 如 下 所 示 。 





0 LSTM W py 














图 6.11 输出 部 分 的 概要 图 


cell = tf.contrib.rnn.BasicLSTMCell(embedding dim//2, forget_bias=1.0) 
initial_state = cell.zero_ state(n batch, tf.float32) 

state = initial_ state 

outputs = [|] 

with tf.variable_scope('LSTM'): 





for t in range(question maxlen): 
IE 和 
tf.get_variable_scope().reuse variables() 

(cenmoutpue Ss tate) cell(oul: tatate) 
outputs.append(cell_ output) 

output = outputs[=1] 

W = weight_variable([embedding dim//2, vocab_size], stddev=0.01) 

a = tf.nn.softmax(tf.matmul(output, W)) 


将 以 上 代码 汇总 起 来 ， 最 终 可 如 下 实现 inference()。 


def inference(x qnibateh 
vocab_size=None, 
embedding_dim=None, 
story_maxlen=None, 
question_maxlen=None): 
def weight_variable(shape, stddev=0.08): 


initial = tf.truncated normal(shape, stddev=stddev) 
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newurn tt Varniablel nea 


def bias_variable(shape): 
initial = tf.zeros(shape, dtype=tf.float32) 
return tf.Variable(initial) 


= weight_variable([vocab_size, embedding_dim]) 

= weight_variable([vocab_size, embedding_dim]) 

= weight_variable([vocab_size, question maxlen]) 
tf.nn.embedding_lookup(A, x) 

= tf.nn.embedding_lookup(B, 9q) 

= tf.nn.embedding_lookup(C, x) 

= ti nn softmax(tt ensum kk > mu 
audpicy 

= tf.transpose(o, perm=[0, 2, 1]) 


人 已 人 EC 人 CO 
ll 


ou = tf.concat([o, u], axis=-1) 


cell = tf.contrib.rnn.BasicLSTMCell(embedding dim//2, forget_bias=1.0) 
initial_state = cell.zero_ state(n batch, tf.float32) 
state = initial_ state 
outputs = [|] 
with tf.variable scope('LSTM'): 
for t in range(question maxlen): 
Tf > OF 
tf.get_variable_scope().reuse variables() 
(celNioutpue state) celoU[ tstate) 
outputs.append(cell_output) 
output = " outputs[=1] 
W = weight_variable([embedding dim//2, vocab_size], stddev=0.01) 
a = tf.nn.softmax(tf.matmul(output, W)) 


returm a 








然后 ，loss() 、training() 以 及 accuracy() 的 代码 采用 普通 神经 网 络 的 实现 方法 即 可 。 














defloss(y te 


cross entropy = \ 
tf.reduce mean(-tf.reduce_sum( 
tomo y Vole le lo 
reduction_indices=[1])) 
return cross_entropy 


def training(1oss) : 
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optimizer = \ 
tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.9, beta2=0.999) 
train_step = optimizer .minimize(1oss) 


eturmngEtranEs 上 ep 


def raccuracy(yr tet) 
correctoprediction = tf:equal(tf.aremax(y 1). tf.argmax(t, 1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


return accuracy 





这 样 就 完成 了 MemN 代码 的 实现 。 我 们 采取 与 之 前 相同 的 方式 ， 用 下 面 的 小 批量 数据 进行 
训练 。 训 练 数 据 和 测试 〈 验 证 ) 数据 分 别 有 10 000 个 和 1000 个 。 





for epoch in range(epochs ) : 
TinputsEtrainiquestionmsEtranaianmsWwerseEtrana = 
shuffle(inputs_train, questions_train, answers_train) 


for 1 in range(n batches): 
start = i * batch size 
end = start + batch_size 





sesserun(tralnistep feedidict=+ 
x nputsetralm Lstarts end 
q: questions_train_[start:end], 
a: answers_train_[start:end], 
n_batch: batch_size 


}) 


# 使 用 测试 数据 进行 评估 


val_ loss = loss.eval(session=sess, feed dict={ 


ny 





x nputsateste 
qaquestions test, 
a: answers_test, 
mbatch: len(inputs_ test) 
J 
val acc = acc.eval(session=sess, feed dict={ 
Xnputsatest, 
qquestions test, 
a: answers_test, 
mbatch: Jen(inputs_ test) 
re)) 
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执行 上 面 的 代码 ， 得 到 的 结果 如 图 6.12 所 示 ， 可 以 看 出 训练 的 效果 不 错 。 大 家 在 实际 的 环 
境 中 运行 时 ， 请 注意 看 一 下 训练 时 间 ， 会 发 现 每 次 迭代 的 训练 时 间 都 非常 短暂 。 




















oy 


一 |02 
0 20 40 60 80 100 120 


图 6.12 ”预测 精度 〈 左 轴 ) 和 误差 〈( 右 轴 ) 的 变化 








[| 小 结 


在 本 章 中 ， 我 们 学 习 了 循环 神经 网 络 的 应 用 方法 。LSTM 和 GRU 是 通过 修改 神 
经 元 的 结构 来 训练 时 间 依 赖 性 的 方法 ， 而 本 章 学 习 的 BiRNN、RNN 编码 器 - 解码 器 
和 注意 力 都 是 修改 网 络 本 身 结构 的 方法 ， 它 们 能 够 在 输入 /输出 都 是 序列 的 场景 中 进 
行 更 有 效 地 训练 。 不 过 ， 这 些 方 法 在 训练 过 程 中 将 信息 保存 在 网 络 或 单元 内 部 ， 所 以 
它们 在 训练 长 期 依赖 信息 时 会 出 现 计算 量 过 大 的 问题 。 为 了 解决 这 个 问题 ，MemN 构 
建 了 在 外 部 保存 信息 的 结构 ， 缩 得了 训练 时 间 。 
通过 本 书 ， 我 们 学 习 了 简单 感知 机 、 多 层 感知 机 、 深 度 神 经 网 络 、 循 环 神经 网 络 
等 多 种 方法 。 虽 然 数据 的 种 类 不 同 ， 处 理 时 要 考虑 的 问题 就 会 不 同 ， 但 是 只 要 根据 出 
现 的 问题 对 网 络 施 以 变化 ， 训 练 就 能 取得 进展 。 正 如 前 面 我 们 所 看 到 的 那样 ， 深 度 学 
习 是 技术 的 累积 ， 其 根基 就 是 “如 何 用 数学 表达 式 及 算法 来 表现 人 脑 "。 全 世界 都 在 积 
极 进行 深度 学 习 的 研究 ， 基 本 上 每 天 都 有 新 的 方法 诞生 ， 但 只 要 理解 了 本 书 讲解 的 基 
础 理论 ， 相 信 今 后 无 论 出 现 什么 方法 ,大 家 都 能 够 迅速 理解 进而 熟练 使 用 。 当 然 各 位 
读者 也 可 以 亲自 去 发 明 新 的 模型 。 
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模型 的 保存 和 读 取 

大 部 分 深度 学 习 模 型 的 训练 都 非常 耗 时 。 如 果 使 用 的 是 大 规模 的 数据 集 ， 那 么 耗费 几 
天 甚至 更 久 的 时 间 来 训练 模型 的 情况 也 不 少见 。 如 果 使 用 的 是 同一 个 训练 数据 集 ， 那 么 从 
训练 结果 中 得 到 的 权重 等 参数 的 值 ( 如 果 随 机 数 相同 ) 应 该 是 相同 的 。 所 以 对 于 已 经 训练 
过 的 模型 ， 应 该 保存 好 其 参数 的 值 ， 验 证 新 的 未 知 数据 时 ， 也 应 该 尽量 人 名 免 训练 模型 的 阶 
段 。 这 就 意味 着 在 进行 深度 学 习 时 ， 我 们 需要 考虑 “保存 ”和 “ 读 取 ”模型 的 处 理 。 

有 了 TensorFlow 和 Keras 就 可 以 轻松 完成 模型 的 保存 和 读 取 。 下 面 我 们 就 来 了 解 一 下 
具体 该 怎么 做 。 

















A.1.1 使 用 TensorFlow 时 的 处 理 
我 们 来 看 一 个 简单 的 例子 ,保存 已 完成 训练 的 (二 分 类 ) 逻辑 回归 的 或 门 的 模型 ， 然 
后 用 这 个 模型 来 验证 可 否 不 经 过 新 的 训练 就 进行 分 类 。 训 练 后 的 模型 以 文件 的 形式 保存 ， 
所 以 首先 要 定义 保存 文件 的 目录 。 
import os 
MODEL_DIR = os.path.join(os.path.dirname(_ file ), 'model') 


if os.path.exists(MODEL_DIR) is False: 
os.mkdir(MODEL_DIR) 
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这 段 代 码 生 成 用 于 保存 文件 的 名 为 model 的 目录 。 然 后 如 下 定义 或 门 的 数据 。 


np.array([[0, 0], [0, 1], [1, 0], [1, 1]]) 
np.array([[0], [1], [1], [1]]) 





定义 模型 的 代码 可 以 如 下 简单 地 编写 。 


w = tf.Variable(tf.zeros([2, 1])) 
b = tf.Variable(tf.zeros([1])) 


x = tf.placeholder(tf.float32, shape=[None, 2]) 

t= "tf.placeholder(tf.float32,. shape=[None, 1]) 

y = tf.nn.sigmoid(tf.matmul(x, w) + b) 

cnrossientropy fsreduceEsumt ef los(Cy OO felos(N Vv 


train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy) 


correct prediction = tf.equal(tf.to float(tf.ereater(y, 0.5)), t) 


accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


不 过 ， 我 们 需要 在 考虑 保存 和 读 取 模 型 时 能 找到 这 些 参数 ， 所 以 需要 给 这 些 变量 取 个 名 字 。 
这 个 模型 的 参数 是 w 和 b， 所 以 要 像 下 面 这 样 给 它们 分 别 赋予 名 字 。 





TT 





w = tf.Variable(tf.zeros([2, 1]), name='w') 
= tf.Variable(tf.zeros([1]), name='b') 


So 
1 








只 需 加 上 name= 即 可 ， 不 需要 做 任何 特殊 的 处 理 。 
进行 模型 的 保存 和 读 取 处 理 时 ， 需 要 进行 tf.train.Saver()。 具 体 来 说 ， 就 是 在 session 
初始 化 时 编写 下 列 代码 。 





init = tf.global variables_initializer() 
saver = tf.train.Saver() # 用 于 保存 模型 


sess = tf.Session() 





sess.run(init) 
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这 样 一 来 ， 想 在 训练 之 后 保存 模型 时 ， 使 用 以 下 代码 就 可 以 保存 名 为 model.ckpt 的 训练 过 
的 模型 文件 了 了。 





# 训练 
for epoch in range(200): 
sesserun(trainistep mn feedBdret={ 
> 
ea 
by 


# 保存 模型 
model path = saver.save(sess, MODEL_DIR + '/model.ckpt') 
print('Model saved to:', model_ path) 





如 果 需 要 读 取 训 练 过 的 模型 用 于 实验 ,务必 保证 模型 的 定义 ( 变量 名 ) 一 致 。 


tf.Variable(tf.zeros([2, 1]), name='w') 
tivVariable(th zernos(lll name nb) 


EF 
ll 


虽然 在 读 取 模型 时 仍然 需要 执行 tf.train.saver()， 不 过 请 注意 ,使 用 训练 过 的 模型 时 不 
需要 进行 变量 的 初始 化 。 也 就 是 说 无 须 执行 tf.global_variables_initializer()。 





# init = tf.global_variables_initializer() # 不 需要 初始 化 
saver = tf.train.Saver() # 用 于 读 取 模型 
sess = tf.Session() 





# sess.run(init) 

















作为 替代 ， 我 们 要 通过 已 保存 的 模型 文件 来 设置 变量 的 值 。 用 于 读 取 模 型 的 是 saver ,restore()。 








saver .restore(sess, MODEL DIR + /model.ckpt') 

















入 





fF 参数 w 和 b 就 应 该 是 训练 过 的 值 了 ， 所 以 不 再 对 它们 进行 新 的 训练 ， 直 接 查 看 预测 精度 。 


这 





acc = accuracy.eval(session=sess, feed_ dict={ 
> 


Pl 扩展 名 .ckpt 是 checkpoint (检查 点 ) 的 缩写 。 





bn 


print( accuracy .ace) 


执行 结果 如 下 所 示 ， 


aceuracye lo 





这 说 明正 确 地 读 取 了 模型 。 以 上 就 是 模型 保存 和 读 取 的 流程 ， 下 面 总 结 一 下 。 





保存 
1. 为 模型 的 变量 命名 
2. 执行 tf.train.Saver() 
3. 使 用 saver .save() 保存 模型 


读 取 
1 用 保存 时 的 名 字 为 变量 命名 
2. 执行 tf.train.Saver() 
3. 使 用 saver.restore() 读 取 模 型 





无 论 模型 多 么 复杂 ， 处 理 的 流程 都 是 一 样 的 。 例 如 使 用 ReLU + dropout 的 组 合 构造 深 
度 神经 网 络 时 ，name= 的 设置 如 下 所 示 。 





def rinference(x keepMprobe nen nhiddens nout): 
def weight_variable(shape, name=None): 
initial = np.sqrt(2.0 / shape[0]) * tf.truncated normal(shape) 


return tf.Variable(initial, name=name) 


def bias_variable(shape, name=None): 
initiall = tf.zeros(shape) 


return tf.Variable(initial, name=name) 




















# 输入 层 - 隐藏 层 、 隐 藏 层 - 隐藏 层 
for i, n_hidden in enumerate(n_hiddens): 
if i == 


input = x 
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input_dim = n_in 
else: 
input = output 


input_dim = n_hiddens[i-1] 


W = weight_variable([input_dim, n_hidden], 
name="'W_{}'.format(i)) 
b = bias_variable([n_hidden], 


name='b_{}'.format(i)) 


h tf.nn.reluCtf.matmul(input W) ob) 
output = tf.nn.dropout(h, keep_prob) 








# 隐藏 层 - 输出 层 
W_out = weight_variable([n_hiddens[-1], n_out], name='W_out') 
b_out = bias variable([n out], name='b_out') 

y = tf.nn.softmax(tf.matmul(output, W_out) + b_out) 

return y 





另外 ,刚才 的 例子 是 在 训练 全 部 结束 时 才 保 存 模 型 的 ,但 有 时 候 ， 比 如 在 实际 的 环境 运行 
时 会 需要 中 断 训练 。 这 时 每 做 一 次 迭代 就 保存 一 次 模型 会 非常 方便 。 





for epoch in range(epochs): 
# 训练 的 代码 
He 


model_ path = \ 


saver .save(sess, MODEL_DIR + '/model_{}.ckpt'.format(epoch)) 
print('Model saved to:', model_ path) 


例如 在 epoch=19 时 中 断 了 训练 ， 那 么 就 可 以 像 下 面 的 代码 这 样 从 中 断 的 地 方 恢 复 训练 。 





et 


saver.restore(sess, MODEL_DIR + '/model_10.ckpt') 


for epochenranse(ni epochs): 
# 训练 的 代码 
Ci 
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A.1.2 使 用 Keras 时 的 处 理 


使 用 TensorFlow 保存 模型 时 需要 额外 定义 saver = tf.train.Saver()， 而 使 用 Keras 保 
存 模型 时 只 需 调 用 model.save() 即 可 。 首 先 和 以 往 一 样 设置 模型 并 进行 训练 。 





model = Sequential([ 
Dense(1, input_dim=2), 
Activation('sigmoid') 
le) 


model.compile(loss='binary_crossentropy', optimizer=SGD(1r=0.1)) 


model.fit(X, Y, epochs=2060, batch_size=1) 


然后 执行 以 下 代码 ， 将 训练 好 的 模型 以 HDFS ( Hierachinal Data Format 5 ) 的 文件 形式 保存 。 


model.save(MODEL DIR + '/model.hdf5') 


读 取 该 模型 的 代码 如 下 所 示 。 


from keras.models import load model 
model = load model(MODEL DIR + '/model.hdf5') 
使 用 TensorFlow 时 需要 保持 保存 和 读 取 的 变量 名 一 致 ， 而 Keras 会 直接 保存 和 读 取 模型 ， 


所 以 无 须 考 虑 变量 
另外 ， 使 用 Keras 保存 每 次 迭代 后 的 模型 的 代码 如 下 所 示 。 








for epoch in range(epochs): 
model.fit(X. Yepochs=1) 
model.save('model_ {}.hdf5'.format(epoch)) 





虽然 这 么 写 没有 问题 ,但 是 有 更 方便 的 方法 ， 比 如 使 用 回调 函数 keras.callback. 
ModelCheckpoint()。 这 种 情况 的 实现 与 早 停 法 的 实现 相同 ， 要 在 回调 函数 中 进行 模型 的 
保存 。 
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首先 进行 如 下 定义 ， 


from keras.callbacks import ModelCheckpoint 


checkpoint = ModelCheckpoint( 
filepath=os .path.join( 
MODEL_DIR, 
'model_{epoch:02d}.hdf5'), 
save_best_only=True) 


然后 像 下 面 一 样 指 定 callback=[checkpoint]， 这 样 每 次 迭代 后 模型 都 会 被 保存 。 











model.fit(X_train, Y_train, epochs=epochs, 
batch_size=batch_size, 
validation data=(X_validation, Y_validation), 
callbacks=[checkpoint]) 





另外 ， 保 存 的 文件 名 中 可 以 包含 误差 值 等 信息 ， 比 如 像 下 面 这 样 事先 指定 好 _vloss{val_ 
loss:.2f}， 文 件 名 就 会 变 成 model_00_vloss0.56.hdf5 的 形式 。 





checkpoint = ModelCheckpoint( 
filepath=os.path.join( 
MODEL_DIR， 
modelEepocn202dhEVlossVvaleloss 2 hdfs DY 
save_best_only=True) 


Ray TensorBoard 
TensorFlow 提供 了 可 以 在 浏览 右上 查看 模型 结构 以 及 训练 的 进度 和 结果 的 功能 
TensorBoard。 图 A.1 就 是 一 个 使 用 TensorBoard 进行 模型 可 视 化 的 例子 。 要 想 让 既 有 代码 
文 持 TensorBoard， 需 要 做 一 些 修 改 ， 不 过 这 并 非 难 事 ， 非 常 简单 。 有 了 可 视 化 功能 后 我 们 
就 能 更 轻松 地 把 握 模 型 ， 所 以 下 面 就 来 看 一 看 应 该 如 何 修改 代码 。 
首先 以 最 简单 的 (二 分 类 ) 逻辑 回归 的 模型 为 例 。 模 型 设置 部 分 的 代码 如 下 页 所 示 。 
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A.1 使 用 TensorBoard 进行 模型 可 视 化 的 例子 


w = tf.Variable(tf.zeros([2, 1])) 
b = tf.Variable(tf.zeros([1])) 


x = tf.placeholder(tf.float32, shape=[None, 2]) 
t = tf.placeholder(tf.float32, shape=[None, 1]) 
y = tf.nn.sigmoid(tf.matmul(x, w) + b) 


cnossYentropy tf reduce®Ssum(t er tfalog(y Dr tf lo vy) 
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy) 


correct predictiom = "tf,.equal(tf.to®nfloat(tf.ereater(y.0.5))  €) 
accuracy = tf.reduce®mean(tf"cast(correctaprediction tf.float32)) 


TensorFlow 的 流程 是 设置 模型 之 后 初始 化 会 话 ， 然 后 进行 训练 。 其 中 初始 化 处 理 的 代码 如 
下 所 示 。 


nit = tf.elobalevariables eo initializer() 
sess = tf.Session() 
sess.run(init) 
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但 为 了 让 现 有 的 代码 支持 TensorBoard， 需 要 做 出 如 下 修改 。 


init = tf.global variables_initializer() 
sess = tf.Session() 
tf.summary.Filewriter(LOG_DIR，sess.graph) # 支持 TensorBoard 


sess.run(init) 


增加 的 只 有 tf.summary.Filewriter() 的 部 分 。 只 要 在 sess.run(init) 之 前 增加 这 工行 ， 即 
可 支持 TensorBoard。 只 是 ， 这 里 用 到 的 L0G_DIR 是 保存 日 志文 件 的 目录 的 路 径 ， 需 要 事先 
定义 。 因 为 运行 tf.summary.FileWriter() 就 会 在 L0G_DIR 里 生成 日 志文 件 ， 而 TensorBoard 
是 通过 读 取 这 里 的 日 志文 件 ， 将 信息 展示 在 浏览 器 上 的 。 像 下 面 这 样 ， 在 文件 的 头 部 加 上 
它 的 定义 就 可 以 了 。 















































import os 
LOGaDTRE= OosRpatmaorn(osspatnsdqirnanme ee os 


TUfEOsspatnsexnstsGOGuDTR)ETISUEalser 
os .mkdir(LOG_DIR) 








程序 执行 完毕 后 ， 试 着 启动 TensorBoard。 在 命令 行 输入 以 下 tensorboard 命令 。 
$ tensorboard --logdir=/path/to/log 


需要 使 用 --logdir= 选项 指定 相当 于 程序 内 LoG_DIR 的 路 径 ?。 如 果 启 动 成 功 ，TensorBoard 
会 在 6006 端口 监听 。 在 浏览 器 中 访问 localhost:6006， 就 会 显示 TensorBoard 的 界面 。 在 
头 部 菜单 中 选择 GRAPHS ， 会 出 现 图 A.2 所 示 的 模型 构成 图 。 昌 然 可 以 可 视 化 了 ， 但 许 
多 元 素 都 排列 在 一 起 ， 还 远 远 达 不 到 易于 理解 的 程度 。 另 外 ,代表 各 tf .Variable() 的 
Variable 、Variable_1 的 可 读 性 也 很 差 ， 很 难 和 代码 中 的 变量 对 上 号 。 为 了 让 图 形 更 容易 
理解 ， ee oi en 

















首先 为 变量 命名 ， 这 一 点 在 定义 各 个 变量 时 为 其 指定 name= 即 可 实现 。 
>2 如 果 之 前 的 日 志 有 残留 ， 在 程序 执行 时 可 能 会 导致 TensorBoard 在 浏览 器 上 显示 的 数据 不 正确 ， 所 以 需要 事 














先 删除 无 关 的 日 志 。 
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图 A.2 简单 的 可 视 化 


w = tf.Variable(tf.zeros([2, 1]), name='w') 
be ti Varniable(ti zeros(ll name by 


x = tf.placeholder(tf.float32, shape=[None, 2], name="Xx') 
te thaplacenoldenmGtis float2 shnape=INonen le name et egy) 
y = tf.nn.sigmoid(tf.matmul(x, w) + b, name='y') 


另外 ， 可 以 通过 
图 中 进行 可 视 化 。 具 体 做 法 如 下 所 示 。 


tf.name_scope() 将 模型 的 误差 或 精度 等 需要 ( 多 个 ) 计算 处 理 的 值 在 一 个 


with tf.name_scope('loss'): 


Cross_entropy = \ 
farmneduceasumCe ealoe(ly rt iL yy 


with tf.name scope(C train' ): 


traunEstepn oN 


tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy) 
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with tf.name_scope(' accuracy ' ) : 
correct predictiom = tfsequal(Ctfestosfloat(tfssreaterCyA 0.5)). DO) 
accuracy =tf.reduce®mean(tf"cast(correct eprediction tf.float32)) 


结果 如 图 A.3 所 示 ， 图 形 的 可 读 性 就 更 强 了 。 点 击 此 处 设置 的 10ss 或 train 等 ， 可 以 查看 
其 内 部 的 处 理 。 


TensorBoard SCALARS 。 IMAGES AUDIO © GRAPHS DISTRIBUTIONS HISTOGRAMS € EMBEDDINGS 内 OO 














Fitto screen Main Graph Auxiliary Nodes 
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wa 
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Session 
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Upload Choose File 
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图 A.3 整理 了 变量 名 和 处 理 名 后 的 可 视 化 





此 外 ，TensorBoard 还 能 够 对 误差 的 变化 ， 也 就 是 学 习 的 过 程 进 行 可 视 化 。 这 时 要 像 下 
面 的 例子 一 样 ， 使 用 tf.summary.scalar()。 


with tf.name_scope('loss'): 
crossientropy = 
“threducessum(G eile lo 三 汪 y 人 仿 
tf.summary.scalar('cross_entropy', cross_entropy) # 注册 到 TensorBoard 


在 会 话 初始 化 时 执行 tf.summary.merge_all()， 就 可 以 用 summaries 来 处 理事 先 定义 的 所 有 


AE 县- 


Eg 


290 | 附录 





init = tf.global variables_initializer() 


sess tf.Session() 


file writer = tf.summary.FileWriter(LOG_ DIR, sess.graph) 


summaries = tf.summary.merge_all() # 整合 已 注册 的 变量 





sess.run(init) 


这 里 使 用 简单 的 或 门 作为 训练 数据 。 





np.array([[0, 0], [0, 1], [1, 0], [1, 1]]) 
Y= np.array([[0], [1], [1], [1]]) 


在 对 模型 进行 训练 的 同时 将 误差 也 记录 到 TensorBoard 的 代码 如 下 所 示 。 


for epoch in range(200): 
sess.run(train step, feed dict={ 
Go 
A 
加) 


summary, loss = sess.run([summaries, cross_entropy], feed dict={ 
Xe 
Me 

jr 


file_writer.add_summary(summary，epoch) # 记录 到 TensorBoard 


将 loss = cross_entropy.eval() 替换 为 summary，,，1oss = sess.run([summaries, cross_ 
entropy]，.…….)， 就 可 以 把 summary 记录 到 TensorBoard 中 。 下 面 在 浏览 器 上 查看 一 下 结 
在 头 部 菜单 选择 SCALARS ， 就 会 显示 如 图 A.4 所 示 的 误差 的 变化 。 
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SCALARS 


x 





O spiit on underscores 


DO Data download links 


Toottip sorting method: default 





IMAGES 


Cross_entropy 


cross_entropy 


2.40 -| 


AUDIO 


GRAPHS 


DISTRIBUTIONS 


HISTOGRAMS EMBEDDINGS 








2.20 
2.00 + 
Smoothing ee 
1.60 +| 
一 全 一 06 
1.40 
1.20 十 
Horizontal Axis 1.00 | 
STEP RELATIVE WALL 0.800 十 
0.600 
0.400 二 
Runs 
Write a regex to filter runs 0000 2000 4000 60.00 80.00 1000 1200 1400 1600 1800 2000 
回 . 5 三 


TOGGLE ALL RUNS 


app/sources/appendix/1/log 
图 A.4 误差 变化 情况 的 可 视 化 


即使 模型 变 得 再 复杂 ， 处 理 的 方法 也 是 不 变 的 。 比 如 前 面 的 图 A.1 就 是 对 有 3 个 隐藏 
层 的 模型 进行 的 可 视 化 ， 这 可 以 通过 如 下 定义 inference() 来 实现 。 


def "inference(x, keep®prob, nein, nehiddens, n out): 
def weight_variable(shape, name=None): 
initial = np.sqrt(2.0 / shape[0]) * tf.truncated normal(shape) 


return tf.Variable(initial, name=name) 


def bias_variable(shape, name=None): 
initial = tf.zeros(shape) 


return tf.Variable(initial, name=name) 


withi tf name®sscope(’ inference’).: 
# 输入 层 - 隐藏 层 、 隐 藏 层 - 隐藏 


for i, n_hidden in enumerate(n_hiddens): 


二 ] 


pa 











i 
input = x 
input_dim = n_in 


else: 
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input = output 


input_dim = n_hiddens[i-1] 


W = weight_variable([input_dim, n_hidden], 
name='W_{}+ .format(i)) 
b = bias_variable([n_hidden], 
name='b_{}'.format(i)) 


h = tf.nn.relu(tf.matmul(input, W) + b, 
name='relu_{}'.format(i)) 
output = tf.nn.dropout(h, keep_prob, 
name='dropout_{}'.format(i)) 





# 隐藏 层 - 输出 层 

W_out = weight_variable([n_hiddens[-1], n_out], name='W_out') 

b_out = bias variable([n out], name='b_out') 

y = tf.nn.softmax(tf.matmul(output, W_out) + b_out, name='y') 
return y 





虽然 各 变量 的 name= 变 为 动态 的 了 ， 但 是 必要 的 处 理 没有 变化 *”。 


a tf.contrib.learn 
即使 是 实现 同样 的 模型 ， 使 用 TensorFlow 和 使 用 Keras 时 的 写法 也 大 不 相同 。 使 用 
TensorFlow 时 一 般 需 要 按照 表达 式 进 行 编写 ， 而 使 用 Keras 时 设置 别名 即 可 编写 。 不 过 ， 
TensorFlow 中 的 tf.contrib.learn 提供 了 一 种 API， 能 以 近似 Keras 的 方式 编写 模型 。 虽 然 
和 基于 数学 表达 式 的 编写 方式 相 比 ， 这 种 写法 在 有 些 方法 上 失去 了 灵活 性 ， 但 是 对 于 普通 
的 神经 网 络 来 说 已 经 非常 实用 。 下 面 我 们 使 用 MNIST 的 数据 来 看 一 下 简单 的 实现 示例 。 
使 用 tf.contrib.learn 时 ,不 需要 1-of- 形式 的 写法 。 所 以 除去 数据 的 正则 化 部 分 
后 , 设置 训练 数据 和 测试 数据 的 代码 如 下 所 示 。 















































X = mnist.data.astype(np.float32) 
y = mnist.target.astype(int) 


XEtraun Xatest yitrain ytesto 


train_test_split(X, y, train_size=N_train) 





3 整体 的 代码 可 以 从 本 书 随 书 下 载 的 代码 包 中 的 appendix/2/01_tensorboard_adam.py 获取 。 
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与 之 相对 应 的 设置 模型 的 代码 如 下 所 示 。 


n_in = 784 
n_hiddens = [200, 200, 200] 


n_out = 10 


feature_columns = \ 
[tf.contrib.layers.real_valued column('', dimension=n_in)] 


model = \ 
tf.contrib.learn.DNNClassifier( 
feature_columns=feature_columns, 
hidden_units=n_hiddens ， 


n_classes=n_out) 





接 下 来 是 训练 模型 的 代码 。 


model.fit(x=X_train, 
y=y_train, 
steps=300, 
batch_size=250) 





只 需 编 写 model.fit() 即 可 进行 训练 ， 写 法 已 经 和 Keras 非常 接近 了 。 另 外 ,， 评 佑 预测 精度 


的 代码 如 下 所 示 ， 


accuracy = model.evaluate(x=X_test, 
y=y_test)['accuracy"] 


print('accuracy:', accuracy) 


可 以 看 出 ,这 种 写法 比 起 基于 数学 表达 式 的 写法 更 简单 。 不 过 ，tf.contrib.learn 的 写法 
很 容易 受 TensorFlow 版 本 升级 的 影响 而 发 生 巨大 变化 ， 而 且 它 没有 基于 数学 表达 式 的 写法 





灵活 ， 所 以 建议 大 家 只 将 它 用 在 一 些 简 单 的 实验 上 。 
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